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Resumen. Sea co(n) el numero de divisores primos de un entero n. Sea n un entero 
tornado al azar entre 1 y N. Que se puede decir del valor que entonces tomara w(n)? 
Cual es su esperanza? Cual es su distribucion en el limite? Cual es la probabilidad que 
iu(n) tome valores que se alejen mucho de su esperanza? 

Estudiamos estas preguntas a guisa de introduccion a la teorfa de numeros proba- 
bib'stica. Trataremos varios topicos centrales de la teorfa de probabilidades sin suponer 
conocimientos previos en el area. No asumiremos ni teorfa de la medida ni analisis com- 
plejo. En los ejercicios, entre otros topicos, se desarrollaran las bases de la teorfa de cribas 
como una aplicacion de ideas probabilfsticas. 
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Prefacio 

Este es un estudio de los factores primos de un niimero tornado al azar. El objeto 
principal es servir de introduccion a la teoria probabili'stica de numeros y, al mismo tiempo, 
a varios temas centrales en la teoria de las probabilidades en general: la varianza, el lfmite 
central, las grandes desviaciones, la entropia. 

La historia de la teoria de numeros probabilistica comienza con Hardy y Ramanujan 
[5] . quienes fueron los primeros en analizar el tema central de este libro: la distribucion del 
niimero ui{n) de divisores primos de un niimero entero aleatorio n. En el curso de la gene- 
racion siguiente - notablemente con el teorema de Erdos y Kac [4j , el cual estudiaremos en 
la seccion [L~3l - se fueron asimilando conceptos y tecnicas de la teoria de probabilidades en 
general al estudio incipiente del tema. El area ha seguido desarrollandose hasta nuestros 
dias, gracias tanto a especialistas en teoria de numeros como a probabilistas. 

No asumiremos ningun conocimiento de analisis complejo ni de teoria de la medida. Al 
final de cada seccion, se encontrara una serie de notas y problemas; esencialmente se trata 
de ejercicios guiados o esbozos de pruebas a seguir y completar con lapiz y papel. Entre 
otros topicos, las notas de fin de seccion desarrollan las bases de la teoria de cribas, tanto 
como una aplicacion de conceptos probabihsticos, como para uso en el texto principal. Mi 
objetivo ha sido dar las pruebas que me parecen ser las mas naturales, antes que las mas 
conocidas. 

El texto presente esta basado en las notas de clase de un curso que dicte en Julio y 
Agosto de 2007 bajo los auspicios del IMCA (Instituto de Matematica y Ciencias Afines) 
en Lima, Peru. Agradezco tanto al IMCA como a la Universidad Mayor de San Marcos 
por su hospitalidad. 
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Notacion 

Sean d y n numeros enteros. Escribimos d\n cuando queremos decir que d divide a n 
exactamente, es decir, sin dejar resto: 3|6, 5|15, l\n para todo n. Escribimos d\n cuando 
d no divide a n, es decir, cuando la division de n por d deja resto: 4 { 6, 7 \ 15, (n + 1) \ n 
para todo n. 

La letra p siempre designara a un numero primo. La funcion A(n) (funcion de von 
Mangoldt) se define como sigue: 

I log p si n = p a para algiin primo p y algiin entero a > 

A ( n ) = n 

I U si no es asi. 

Denotamos por |_xj el maximo entero n que no sea mayor que x. Por ejemplo, |_2,T5j = 
2, L7J = 7, L*rJ = 3. 

Cuando decimos "logaritmo" o escribimos log x, tenemos siempre en mente al logaritmo 
en base e, a menos que otra base se especifique explicitamente ("logaritmo en base 2", por 
ejemplo). Al contrario de los escritores franceses, utilizaremos la notacion log 2 x para el 
logaritmo base 2 de x, y log log x para el logaritmo (base e) del logaritmo (base e) de x. 

Utilizaremos la notacion O, o de Landau dadas dos funciones /, g, (a) se escribe 
f(x) = 0(g{x)) cuando existen constantes ci,C2 > tales que \f(x)/ g(x)\ < c\ para 
todo x > C2; (b) se escribe /(x) = o(g(x)) cuando lmx^oo f{x)/g{x) = 0. Esta claro que 
f(x) = o(g(x)) implica f(x) = 0(g(x)), pero no viceversa. Ejemplos: x 2 = 0(x 3 ), x 2 = 
o(x 3 ), f(x) = 0(f(x)) (para todo /), sinx = O(l), xsinx = 0(x), ^2 n<x 1/Vi = O(logn), 
En<i(~l)"/ n = 0(1), Y\ n < x (l — = o(l). En particular, f(x) = 0(1) quiere decir que 
/ esta acotada por una constante, y f(x) = o(l) quiere decir que / tiende a cero cuando 
x va al infinite. Escribimos O c (l), o$ iZ (l) si dichas constantes dependen de c o 5 y z, por 
ejemplo. 

Laexpresion "/(x) <C g(x)" es un sinonimo de "/(x) = 0(g(x))"; la expresion 11 fix) 3> 
g(x) n es un sinonimo de u g(x) = 0(/(x))". 

Escribimos /(x) ~ g(x) cuando queremos decir que / es asintotica con respecto a g, 

i.e., 

li'm f(x)/g{x) = 1. 

x—>oo 

Si decimos que f(x) = o(g(x)) (o f(x) ~ ^(x)) "cuando x — > 0", queremos decir que 
Hm x ^o f(x)/g(x) = (o, respectivamente, lim x ^o f (x) / g(x) = 1). 

Denotamos por Prob(i^) la probabilidad del evento aleatorio E, por E(X) la esperanza 
de la variable aleatoria X y por Var(X) la varianza de la variable X. Ver el apendice IA1 
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Los divisores primos 



1.1. La esperanza 



Definicion de esperanza. Ejemplos. Recordemos que, si se tiene una variable 
aleatoria X que toma los valores x±,X2, ■ ■ ■ ,x n con probabilidades p±, P2, ■ ■ ■ , Pm don- 
de p± + P2 + • • • + p n = 1) entonces la esperanza se define como la cantidad 



n 

^2piXi. 

i=i 



Asf, por ejemplo, si X es el valor que da un dado arrojado al aire, 

1 con probabilidad 1/6 



X 



2 con probabilidad 1/6 

3 con probabilidad 1/6 

6 con probabilidad 1/6 



y por lo tanto 



nx) = Y^Pix i = \-i + \-2+... + 1 -.Q = l 



Si X es un dado trucado, muy bien podrfa tener la distribucion 

1 con probabilidad 1/18 

X = < 2, 3, . . . , 5 con probabilidad 1/9 en cada caso 
6 con probabilidad 1/2 

y entonces 

11 11 83 

MX) = V PiXi = _.i + _.2 + ... + -- 5 + -- 6= — . 
v ) Z^v* * 18 9 9 2 18 

i 

Esperanza y sumas. Denotamos por E(X) la esperanza de una variable aleatoria X. 
Sean Xi,X2,..., X n variables aleatorias. Es facil ver que 

(1.1.1) E(Xi + ... + X n )= E(Xi) + . . . + E(X n ). 

Aplicacion 1. Denotemos por r(n) el niimero de divisores de un entero n. Cuanto es 
r(n), en promedio? 

Para que nuestra pregunta tenga sentido, debemos decir como estamos escogiendo 
n. Fijemos un entero N. Tomamos n al azar entre 1 y N, con la distribucion uniforme. 
Estamos preguntando cual es el valor de E(r(n)). 

i 
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Para todo entero m, definimos 
(1.1.2) X 



in 



si m \ n, 

1 si m\n. 



(Formalmente, lo que tenemos es una variable aleatoria X que toma valores n entre 1 y N 
con la distribution uniforme, y varias variables aleatorias X m que dependen de X.) Ahora 
bien, 

E X m = r(n). 

Esta claro que lo que queremos calcular es EQ^X m ). 
Ya sabemos (jl.l.ip que 



E (E x ™) = E E ( Xm )- 

\ m / m 



Ahora bien, cual es el valor de E(X m )? Calculamos: 
(1.1.3) 



E(X m ) = Frob(X m = 1) = - ^ 

n<N 
m\n 



1 


N 




N 


m 


4( 



(Aquf, como de ahora en adelante, 0(1) quiere decir "una cantidad x tal que |x| < C 
para alguna constante C" y 0(1/ N) quiere decir "una cantidad x tal que \x\ < C/N" . La 
ecuacion \_N/m\ = N/m + 0{\) nos esta diciendo simplemente que el valor absoluto de la 
diferencia entre [N/m\ y N/m es siempre menor que una constante - en verdad, menor 
que 1.) Por lo tanto 

ie x m ) = £ E(x m ) =E^E°(i) =w+0(1) ' 

V m / m m<N m<N ^ ' 

concluimos que 

(1.1.4) E(r(n)) = logiV + 0(l). 

Aplicacion 2. Sea uj(n) el niimero de divisores primos de n. Cuanto es io(n), en pro- 
medio? 

Calculemos: 

E( W (n)) = IE ( E ^ ) = E E W = E 5 + E (^) • 

\p<iV J p<N p<N 1 p<N V J 

Ahora bien 

(1.1.5) V - = loglogiV + 0(l) 

p<Af ^ 

(teorema de Chebyshev-Mertens, 1875; ver los ejercicios). Por lo tanto 

(1.1.6) E(w(n)) =loglogiV + 0(l). 
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Aplicacion 3. Cuantos factores primos de un tamano dado tiene un numero tornado al 
azar? 

Precisemos el rango. Sean dados <5o, 5\ tales que < So < S± < 1. Tomemos n entre 1 
y N bajo la distribution uniforme. Queremos saber la esperanza K(Y) del numero Y de 
factores primos de n entre N 6 ° y N Sl . 

Calculemos: 

e ( y ) = e( yj x] = yj fi +0 (i 



A^o <p<N s i 

log<5i - log<5 + o(l). 



Podemos plantearnos una segunda pregunta: cual es la probabilidad que n tenga por 
lo menos un factor primo entre N s ° y N Sl ? Un numero n < N no puede tener mas de l/<5o 
factores primos mayores que N s ". Por lo tanto, 

Prob(F > 0) < ^E(y) < <5 • (log <5i - log S + o(l)). 

Esto es solo una cota superior. Veremos mas tarde como estimar Prob(Y > 0) de 
manera mas precisa. 

Desigualdad de Markov. Sea X una variable aleatoria que toma siempre valores no 
negativos. Sea t > E(X). Entonces 

(1.1.7) Prob(X > t) < (desigualdad de Markov). 

Esto tiene sentido: si, en promedio, cae 1 cm de lluvia al dfa, la probabilidad que caigan 
mas de 10 cm no puede ser mas de 0,1. (Por otra parte, dado que cae 1 cm de lluvia al di'a 
en promedio, la probabilidad que caigan cm puede ser tan cercana a 1 como se quiera: 
muy bien podrfan haber cien anos de sequfa y un dfa de diluvio. Esto nos muestra que 
una desigualdad tan general como la de Markov puede valer solo para la cola superior de 
la distribution, no para la cola inferior.) 

La prueba es sencilla: por la definition de la esperanza, tenemos 

E(X) > • Prob(X < t) + 1 ■ Piob(X > t) = t • Prob(X > t), 

y por lo tanto 

Prob(X >t)< ffl. 



Aplicaciones. Obtenemos de manera inmediata que 

Prob(r(n) > t) < ^ N + ^\ 

(118) ^ 

^ w , x loglogiV + 0(l) 
Prob(cj(n) > t) < -^-^ v ' . 
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Podemos mejorar la segunda cota en (ll.l.8|) de la manera siguiente. Es facil ver que 
r(n) > 2^ n \ Luego 

(1.1.9) Prob(w(n) >t)< Prob(r(n) > 2*) < lo S N + °( 1 ) _ 

Que tan mejor es esto que la segunda lmea de (jl.l.8p ? Consideremos t = (1 + e) log 2 log N. 

;2+q( 

l+e 

l + o(l) 



Entonces (jl.l.8p nos da Prob(u>(n) > t) < J2£^+£W ) mientras que (jl.l.9p nos da 



Prob(u(ra) > t) < 



(log NY 



lo cual es una cota mucho mas fuerte (es decir, baja). 

Por otra parte, si t esta entre log log N y log 2 log N, la desigualdad (|1 . 1 .9j) no nos da na- 
da. Esto se debe al hecho que, si bien r(n) = gran parte del tiempo, E(r(n)) = log N, 
mientras que E(u;(re)) = log log N; en otras palabras, E(r(n)) / 2 E(u; ( ?1 )) . Las colas superio- 
res de la distribution de w(n) cobran gran efecto cuando io{n) se pone en el exponente, al 
punto que afectan considerablemente la esperanza de E(r(n)) (o la de E^^™)), la cual es 
del mismo orden de mag nitucfl). 

Tendremos la oportunidad de estimar las distribuciones de w(n) y r(n) con mayor 
precision mas tarde. 



Notas y problemas 

1. Sumas por partes. La siguiente tecnica es util a menudo; la necesitaremos inme- 
diatamente en la prueba de Chebyshev-Mertens y una y otra vez en el future 
Digamos que tenemos que calcular 

N 

I>(n), 

n=l 

donde h(n) = (/(n + 1) — f{n)) ■ g(n). Entonces 



Kn) = + 1) - f(n)) ■ g(n) = £ f(n + l)g(n) - £ f(n)g(r 

n=l n=l n=l n=l 

N+1 N 

= £ /( n )#( n ~ !) - £ /( n M n ) 

n=2 n=l 

N 

= (f(N + l)g(N) - f(l)g(l)) - £ f(n)(g(n) - g(n - 1)). 



n=2 



Esta tecnica (sumar por partes) es util cuando la suma ^2 n= i f(n)(g(n)—g(n — l)) 

es, por algiin motivo, mas facil de calcular que J2n=i(f( n + -0 ~~ fi n )) ' 9i n )i ° Y a 
ha sido evaluada. 



1 Es decir, es de tamano comparable, qui'tese o pongase un factor constante. 
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2. 



Se puede ver que el proceso es analogo a la integration por partes. (Uno puede, 
incluso, ver a la sumacion por partes como un caso especial de la integration por 
partes, mediante el uso de una integral de Lebesgue.) 
Probaremos el teorema de Chebyshev-Mertens (ecuacion (jl.l.5j> ). 
a) Todo numero entero positivo puede ser expresado como un producto de pri- 
mos de manera unicsQ En otras palabras, para todo entero positivo n, 



(1.1.10) 



(1.1.11) 



(1.1.12) 



(1.1.13) 



n 



n^ p(n) > 



donde v p (n) es el maximo entero no negativo k tal que p k \n. 
Tome logaritmos a ambos lados y muestre que 

logra = ^A(cO, 

d\n 

donde A(d) = logp si d es una potencia p a de un primo p, y A(g?) = si no 
es asf (funcion de von Mangoldt). 

b) Sea Xd como antes, es decir, la variable aleatoria que toma el valor 1 cuando 
d\n y el valor cuando d \ n. Sea Y = E^ d | n A(cf)A^. Entonces, por fjl.l.lOjl . 
Y siempre toma el valor logra. Concluya que 

E(y) = iogJv + o(i). 

c) Al mismo tiempo, tenemos que 



E(Y) = MdMX d 



d<N 



d<N 



A(d)- 



N 



N 
~d 



asi que 



Como Ml 

l^d<N ~~d~- 



E 

d<N 



A(d) 



N 



N 
~d 



log N + 0(1). 



E 

d<N 



A(d) 



O (jt) , estamos a un paso de obtener una estimation de 
lo S N + 0(l) + J2Hd)-o(^) 



d<N 
1 



logiV + 0(l) + --0 [ J^A(d) 



id<N 



Este hecho es a veces llamado el teorema fundamental de la aritmetica. Puede parecer extrano que un 
enunciado tan familiar tenga un nombre tan grandilocuente; empero, el hecho que un enunciado nos sea 
sumamente natural no quiere decir que no deba ser probado, o que sea cierto. Hay analogos del conjunto 
de enteros Z, los as! llamados anillos de enteros de los campos algebraicos; en la gran mayon'a de ellos, 
el teorema fundamental de la aritmetica deja de ser cierto. (Si bien todo elemento aun se factoriza en 
elementos irreducibles, ya no lo hace de manera unica.) Tenemos, por ejemplo, las dos factorizaciones 
6 = 2 • 3 = (1 + \/— 5)(1 — \f—5) en el anillo de enteros del campo algebraico Q(y/—5). 
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(1.1.14) 



(1.1.15) 



(1.1.16) 



Solo nos falta acotar Yld<N A-(d). 
d) Por (|1.1.12p . tenemos 

E^>4 N 



d<N 

d<N 
y por lo tanto 



1 



N/2 



d 

N/2 
~d~ 



logJV + 0(l), 



N 

log - + 0(1) 



E a m<E a m 



-f <d<-/V 



<KiV 





JV 




JV 




( 




- 2 


_2d_ 


) 



JV(log JV + O(l)) - JV ( log — + 0(1) 



JV 



O(JV) 



para todo JV. Por lo tanto, 

E A ( rf )= E A ( d )+ E A ( d )+ E A ( d ) + - 



rf<^V f<d<N f<d<f f«i<f 



= O(JV) + 0(JV/2) + 0(JV/4) + . . . = O(JV). 

(Aqui lo que hemos hecho es dividir una suma en intervalos diddicos, es decir, 
intervalos de la forma M < d < 2M; este es un procedimiento muy comun 
en el analisis.) 
e) De (11.1. BP y (II. 1.141) . deducimos que 

A(d) 



E 

d<N 



d 



logJV + 0(l). 



/) Si bien (|1.1.15jl ya es un resultado util, lo que queremos en verdad es estimar 
la suma Y^ p <n \ - Ahora bien, la contribucion de los enteros d de la forma 
d = p a , a > 2, a la suma (|1.1.15[> es negligible, o, mas precisamente, 0(1). 



(Por que? Porque ^ 



log n 



es convergente.) Tenemos entonces que 



E 

p<N 



logp 

P 



logJV + 0(l). 



Para liberarnos del factor logp, podemos hacer una suma por partes (ver la 
nota[T]mas arriba). Utilice tal tecnica (como?) para concluir que 

E logn+ °^ 



P 



ra(logn) 2 



+ 0(1). 



p<N 1 2<n<N 

Aproximando la suma mediante una integral, muestre que 
logn + 0(l) 



E 

2<n<N 



ra(log n) 2 



log logJV + 0(l) 
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y por lo tanto 

(1.1.17) — = log log N + 0(1) (teorema de Chebyshev-Mertens). 

p<N L 

g) Denotemos por ir(N) el numero de primos entre 1 y N. (Aquf tt es la letra 
griega que corresponde a p, la cual es la primera letra de la palabra primo; 
no hay otra connexion con el numero ir = 3,14159 . . . .) Utilice la tecnica de 
la suma por partes para deducir de (|1.1.14|> que 

(1.1.18) *(N) « 

Este es un resultado de Chebyshev. 

h) En verdad, siguiendo un procedimiento similar al que acabamos de poner en 
practica, Chebyshev probo resultados mas fuertes y mas precisos; en parti- 
cular, mostro que 

(1.1.19) (io g 2)^(l + (l)) <7r(iV) < (log 4)^(1 + o(l)). 

Notese que Chebyshev dio una cota inferior, no solo una cota inferior como 
(|1.1.18p . Probar (|1.1.19p puede ser un problema interesante para el lector; 
alternativamente, se puede consultar [81 §2.2], por ejemplo. Aqui nos hemos 
querido concentrar en derivar Chebyshev-Mertens (|1.1.17p de la manera mas 
breve posible. 

Mas tarde, en 1896, Hadamard y de la Vallee Poussin mostraron (indepen- 
dientemente el uno del otro) que 

N 

(1.1.20) tt(N) ~ - — — (teorema de los mimeros primos) 

La mayorfa de las demostraciones de 1.20 jl requieren iniciar el estudio de 
la funcion zeta de Riemann. (Ver, e.g., [8l §5.6].) Existen tambien pruebas 
"elementales"H, generalmente complicadas. 

Utilizaremos el teorema de los mimeros primos (I1.1.20P muy poco en estas 
notas, ya que Chebyshev-Mertens nos sera casi siempre suficiente. 

1.2. La varianza 

La varianza de una variable aleatoria esta dada por 

(1.2.1) Var(X) := E((X - E(X)) 2 ) = E(X 2 ) - E(X) 2 . 
Sean X, Y dos variables independientes. Entonces 

(1.2.2) E(XY) =E(X)E(Y), 
y luego 

(1.2.3) Var(X + Y) = E((X + Y) 2 ) - E(X + Y) 2 = Var(X) + Var(F). 



^En el sentido de no utilizar el analisis complejo. 
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En general, si Xi,X 2 , - ■ ■ ,X n son variables independientes en pares (es decir, si Xi, Xj 
son independientes para i,j G {1, 2, . . . , n} distintos cualesquiera) , 

(1.2.4) Var(Xi + X 2 + . . . + X n ) = Var(Xi) + . . . + Var(X n ). 

Teorema 1.1. (Desigualdad de Chebyshev) Para toda variable aleatoria X y todo 
x > 0, 

Prob(|X - E(X)\ >x)< VaJ ( X ) , 

x z 

En particular, si X = X\ + X 2 + . . . + X n , donde X±,X 2 , ■ ■ ■ , X n son variables indepen- 
dientes en pares, 

(1.2.5) Prob(|X - E(X)\ > x) < ^ - V ^ + ' ' ' + 



Demostracion. Utilizamos la definicion (11.2. ip y la desigualdad de Markov (11.1.70 : 
ProbflX - E(X)\ > x) = Probfl* - E(X)P > *') < lfl*zjg>£> _ Ml. 
Si X = Xi + . . . + X n , utilizamos ()1.2.4p para evaluar Var(X). □ 

Aplicacion. Sabemos ya que, en promedio, un numero n < N tiene log log N + O(l) 
factores primos. Que tan comunes son los numeros que tienen muchos menos o muchos 
mas factores primos? 

Sea X p como en (jl.l.2|) . Ahora bien, X 2 = X p , puesto que 2 = y l 2 = 1. Por lo 
tanto, 

Var(X p ) = E{X 2 p ) - E(X p f = E(X P ) - E(X P ) 2 = E(X p ) - 0(l/p 2 ). 
La ecuacion f)1.1.6|) nos dice que ^2 p <nE(X p ) = log log N + 0(1). Asf, 

Var(X p ) = £ nX P ) ~ E h = E E ( X p) - °M = log log ^ + 0(1). 

p<N p<N p<N P p<N 

Podemos concluir que, para u(n) = X = J2 P <N-^p, la desigualdad de Chebyshev 
es valida con E(X) = log log N + O(l)? No nos apresuremos: las variables X P1 , X p2 , 
Pi ^ p 2 no son exactamente independientes. (Por ejemplo, si p±,p 2 > V~N, entonces X Pl 
y X P2 no pueden ser 1 simultaneamente (por que?); esto nunca pasaria con variables 
verdaderamente independientes.) Nos basta, empero, que la igualdad (jl.2.2p sea valida de 
manera aproximada. Veamos: para p\ ^ p 2 , 

^ + o(i 

pip 2 \N _ 



E(X pi X P2 ) = E(X piP2 ) = — + 



E(X P1 )E(X P2 ) = + 0{l/N))(l/p 2 + 0(l/N)) = -L + o(±Y 

Por lo tanto, 

Var(X Pl + X P2 ) = E((X P1 + X P2 ) 2 ) - E(X Pl + X P2 f = Var(X Pl ) + Var(X P2 ) + 0(1/ N), 
y, de la misma manera, 

Var( E X p ) = E Var (^f>) + 0{M 2 /N) 

p<M p<M 



1.2. LA VARIANZA 



9 



para todo M. Ahora bien, podemos escoger M de tal manera que el termino de error 
0(M 2 /N) sea pequeno - digamos, M = A 1 / 3 . Concluimos, por la desigualdad de Chebys- 
hev, que 

(1.2.6) Prob ( |X - E(X)\ >x)< l ^N + Q(l) 

x z 

para X = *£, p < N i/ 3 X p . 

Ahora bien, cual es la diferencia entre X y ui{n)l Un numero n < N no puede tener 
mas de dos divisores primos > A 1 / 3 : mas no caben. Por lo tanto, \X — uj{n)\ nunca es mas 
de 2. Obtenemos que 

(1.2.7) Prob(| W (n) -log log n| > x) < l ^^±^l . 

(x + (j(i)y 

Dicho de otra manera, 

(1.2.8) Prob (V(n) - log log N\ > VloglogA) < 1 + 0(l/y/log ]ogN) 



para todo t > 1. (La constante imph'cita en 0(l/Vlog log N) no depende de t.) Tanto el 
resultado (|1.2.8p como la prueba que hemos presentado se deben a Turan [2j; Hardy y 
Ramanujan habi'an dado antes una prueba mas complicada de un resultado ligeramente 
mas debil [5]. 

Ejemplos. Escogemos t = 10, y obtenemos que 

Prob(|w(n) - loglogA^| > lO^loglogA^) < — + o(l); 

escogemos t = e Vlog log N, y obtenemos que 

1 

e 2 log log 



Prob(a;(n) > (1 + e) log log N) < - 2 AT + o e (l) 



(1.2.9) , 

Prob(u;(n) < (1 - e) log log N) < eHoglogN + o e (l) 

para todo e > 0. 

Notas y problemas 

1. Nuevamente nos planteamos la pregunta: cuantos primos hay entre 1 y A? Tra- 
temos de ver si podemos atacar el problema usando la varianza, antes que la 
esperanza. La idea central esta clara: los primos son algo que se desvfan de la 
norma, y podemos usar la desigualdad de Chebyshev (Teorema ll.ip para obtener 
una cota sobre la probabilidad de eventos que se desvfan de una norma. Podemos 
usar la desigualdad (|l,2.7p (la cual hemos probado utilizando la desigualdad de 
Chebyshev) con x = log log n, y obtenemos 

p u t ) = u< logiog^ + oq) = i 

ro { [U) ) _ bg ^ 2 + ^ Qg bg ^ bg bg N + Q ^ . 

Por lo tanto, hay a lo mas log \ og % + o(i) P r i mos entre 1 y A. Esta es una cota su- 
mamente debil: la cota (|1.1.18j) era mucho mejor. Podemos utilizar la desigualdad 
de Chebyshev de otra manera para obtener una cota mas fuerte? 
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Veremos que es asi, y luego veremos que la gran ventaja de lo que haremos 
sobre lo que hicimos en las notas en la seccion anterior es que el que metodo que 
seguiremos ahora tambien sirve para obtener cotas sobre muchas cosas aparte del 
numero de primos entre 1 y N. 

Lo que estamos haciendo es evaluar la varianza de X = ^2 p X p . Al hacer tal 

cosa, utilizamos el hecho que las variables X p , p < iV 1 / 3 (digamos) son casi inde- 
pendientes en pares. Hay todavfa un hecho mas general que no estamos usando: 
para p\ < p 2 < . . . < pt cualesquiera tales que P1P2 • • -Pk es bastante menor 
que N, las variables X pi ,X P2 , . . . ,X Pk son mutuamente independientes, o casi. 
Que podemos hacer con esto? 
a) Defina 



(1.2.10) Z, 



(1.2.12) 



v 




si p \ n, 
1/p) sip|ra, 



donde n es un entero aleatorio entre 1 y N. Verifique que E(Z P ) = 0(1/N). 

b) Para todo d sin divisores cuadrados^, defina 

(1.2.11) Z d = Y[Z p . 

P \d 

Verifique que E(Z d ) = 0(r{d)/N). Ya sabemos que r(d) es pequeho en pro- 
medio (ver (|1.1.4[) ). 

Concluya que, si d±, <i 2 son distintos y carecen de divisores cuadrados, 
E(Z dl )E(Z d2 ) = N- 2 • 0(r(di))0(r(d 2 )), 

E(Z dl Z d2 ) = N- 1 • 0(r(did 2 )) < N- 1 • 0(r(d 1 ))0(r(d 2 )), 
y por lo tanto 

(1.2.13) E(Z dl Z d2 ) = E(Z dl )E(Z d2 ) + N' 1 ■ O^d^O^)). 

c) Defina Z = ^2 d<M Z d , donde M = A r °' 49 . (El asterisco * en la suma XlcKM 
quiere decir que d recorre solo a los enteros sin divisores cuadrados.) 
Podemos ver que (11 .2.13[) es una version aproximada de fll.2.2f) : es razonable 
tratar de obtener una version aproximada de (jl.2.4p en consecuencia. Muestre 
que 

E{Z) = 0(N- 1/2 ), 

( L2 - 14 ) Var(Z) = Y,* Var (^) + 0{N-°' 01 ) = ^* E{Z 2 d ) + 0{N 



0,01> 

d<M d<M 



Muestre tambien que E{Z 2 ) = ^ + 0( 2 #), donde <f>(d) = d-n, d (l-l/p) 



(funcion de Euler). Por consiguiente, 
(1.2.15) Var(Z) = JJ* ^ + O (N^ 01 ) « log M < log N. 

d<M 



4 Es decir, d no divisible por 4, ni por 9, ni por 16, ni por 25, 
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d) Por la desigualdad de Chebyshev, 

Var(Z) 



(1.2.16) Prob(|Z-E(Z)| > x) < 



(1.2.17) 



ar 

Ahora bien, si el numero n es primo y mayor que M, entonces, para cada d 
sin divisores cuadrados, la variable Zd tomara el valor lipid 1/p = 1/^ (por la 
definicion de Zd', ver (|1.2.10j) y (II. 2. lip ). Por lo tanto, si n es primo y mayor 
que M, 

^=£*~>>§^>> £-U>io g M>>i og Ar 

d<M ^ m d<M 

donde utilizamos el hecho que la suma J2 m converge. 
Se infiere inmediatamente que 

Prob(n es primo y mayor que M) < Prob(|Z — E(Z)| > x) 

con x = J2*d<M 1 / d ~ E ( Z ) » lo S N ~ OiN- 1 / 2 ) » logiV. Por (ll.2.15[) y 
(jl.2.16p . concluimos que 

Prob(n es primo y mayor que M) <C | — j^, 

y por lo tanto 

Prob(n es primo) <C — + Prob(n < M) 

log N 

1 M 1 



log N N log N 

para n tornado al azar entre 1 y N. En otras palabras, el numero de primos 
entre 1 y N es <C 

Esta es esencialmente la misma cota que ya obtuvimos en §1.11 Problema 12 iil 
La ventaja del metodo presente reside en su suma flexibilidad: vease el problema 
siguiente. 

2. Procediendo como lo hicimos en el problema anterior, probaremos que 

(1.2.18) Prob(tanto n como n + 2 son primos) <C -rr 

(log N) 2 

para n tornado al azar entre 1 y N . 
a] Comenzamos definiendo 



(1.2.19) Z t 



p 



2/p sip\nyp\n-\-2, 
— (1 — 2/p) sip|nop|n + 2, 

donde n es un enter o aleatorio entre 1 y N, y 

Zd = Y\ z p . 

P \d 

De la misma manera que antes, se puede ver que K(Zd 1 Zd 2 ) y K(Zd 1 )^(Zd 2 ) 
son sumamente pequenos para d±,d2 distintos y sin divisores cuadrados. 
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(1.2.20) 



b) Podriamos definir, como antes, Z = YTd<M Zd-, donde M = N2~ e . (El aste- 
risco * en la suma Yld<M denota que la suma recorre solo a los d sin divisores 
cuadrados.) Esto podri'a dar resultados. Empero, tenemos el derecho de de- 
finir Z = Y2d<M c d Z d , para c d s arbitrarios; hacemos esto, y afrontamos la 
tarea de encontrar los c d que nos den el mejor resultado. 
(Esta tarea de optimization nos dara una mejora cuantitativa, antes que cua- 
litativa; podriamos obtener (|1.2.18|) sin este paso. Por suerte, ciertos calculos 
finales nos seran mas simples de esta manera que si escogieramos c d = 1.) 
Como antes, la idea es usar 

K(Z 2 ) 



Prob(|Z| > x) < 



x 2 



donde x es el valor que Z toma cuando nyu + 2 son ambos primos. 
Muestre que, cuando n y n + 2 son ambos primos, 

v^* r(d) 

z= 2^ Cd — 

d<M 

Muestre tambien que 
E{Z 2 ) = Y^^ZD+O [n 1 ( Y* \c d \r(d) 

d<M \ \d<M 




d<M p\d V ■ P/ \ \d<M 



Cd\r(d) 



d< 

c) Debemos, entonces, encontrar el mmimo de 
l^d<M d d ll P\ d V P 





(1.2.21) 



La preguntas es: como escogemos c d de tal manera que (jl.2.2ip sea mmimo? 
O, mas bien: cual es el mmimo valor tornado por (jl.2.2ip ? 
Para ad, b d cualesquiera, 

(1.2.22) j ^2 a d b d ] < ^2 a d ■ Yl b d (desigualdad de Cauchy) 

\ d / d d 

con igualdad solo cuando a y b son proporcionales, i.e., cuando hay algun 
r tal que a d = rb d para todo d (o a d = para todo d). (Prueba de la 
desigualdad de Cauchy: tenemos ^2 d<d ,'{ a db' d — a d /b d ) 2 > con igualdad sf y 
solo si a d b' d — a d ib d = para todo par d, a", lo cual a su vez ocurre si y solo si a 
y b son proporcionales. Expanda J2d<d'(. a db' d — a-d'bd) 2 , pase todos los terminos 
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negativos al lado derecho de la desigualdad Yld<d' ( a db'd ~ a d'bd) 2 > 0, y sume 
a dPd, a c& da lado.) 

La desigualdad de Cauchy no es sino la familiar afirmacion que el producto 
de dos vectores es menor o igual que el producto de sus normas. En ver- 
dad, no necesitaremos la desigualdad de Cauchy, sino simplemente el hecho 
(evidente) que (jl.2.22p se vuelve una igualdad cuando = bd para todo 
d. La desigualdad de Cauchy solo cumple el rol de asegurarnos que estamos 
procediendo de la mejor manera posible (en este paso). 

La expresion (|1.2.21|) es igual a , - M d - 2 con 



a>d = Cd. 



i 



P \d 




1/2 

T{d) -pr / 2" 



Por la desigualdad de Cauchy, el mmimo de - — - d - M d $ es ^ — rz-, es decir, 



(T,d<M a d b d) T."d<M b . 



d 



sr* T i d ) rr (\ - ^ ' 

2^d<M d llp\d\ L p. 



Este mmimo es alcanzado cuando = bd, i.e., cuando q = Yl p \ d y- ~ p 
Tenemos, entonces - utilizando (|1.2.20p - 

E(Z 2 ) 



2> 1 



Prob(ra y n + 2 son primos) < 



x 2 



< i | / M(logAQ- 

- v * r{d) n /, 2 r' V N 

l^d d llp\d\ L p) 

El termino O ^ M ( lo & N } ^ es negligible (<C iV -1 / 2 ). Ahora bien, 

^2 d n f 1 ~ ^ n f 1 + p + „2 + „3 + ■ • • 




(logM 1 / 2 ) 2 > (logiV) 5 



Por lo tanto, 



23) Prob(n yn + 2 son primos) -C 



(log iV) 2 ' 

Lo que acabamos de hacer puede verse como una version del metodo llamado 
criba de Selberg (1950). 

La primera prueba del resultado (|1.2.18h fue dada por V. Brun (1920). 
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3. Se sabe que Prob(n es primo) ~ wiy i t & l aseveracion no es sino el teorema de 
los numeros primos (Hadamard - de la Vallee-Poussin, 1896), para el cual no se 
conoce una demostracion simple. Se cree que 

24) Probftanto n como n + 2 son primos) ~ — 

(log N) z 

donde 

C 2 = 2 IlfeS~ 1 ' 32032 --- 

p>3 KF ' 

Empero, esta conjetura sigue sin probarse; no se sabe siquiera si es que hay un 
numero infinito de primos n tales que n + 2 sea tambien primo {conjetura de 
los primos gemelos). (El enunciado (|1.2.24p es parte de la conjetura de Hardy- 
Littlewood, la cual tambien especifica, por ejemplo, cual debe ser la probabilidad 
que n, n + 2yn + 6 sean todos primos.) 

4. Veamos ahora una bonita aplicacion de los resultados de esta seccion; tanto el 
resultado como la prueba se deben a Erdos [3\. El resultado es el siguiente: solo 
una proporcion o(l) de los enteros < iV 2 pueden expresarse como un producto 
a ■ b con a,b < N. (Cuando decimos una proporcion o(l) (o, coloquialmente, 
"proporcion 0") de los enteros < N 2 , queremos decir "o(iV 2 ) enteros < N 2 " .) 
Probemos este resultado. 

a) Sea e un numero pequeho (digamos e = 1/10). Entonces, por (jl.2.9p . 

Prob( W (a) < (1 - e) log log iV) = O ( 1 ) = o e (l), 

\iog logivy 

Prob(w(&) < (l-e)loglogAO = o( 1 ) =o e (l), 

Viog logivy 

donde a y b son enteros entre 1 y JV tornados al azar. 

b) Muestre que E(cj(mcd(a, &))) es 0(1). 

c) Concluya que 

Prob(w(a • b) < (2 - 3e)loglogiV) = o e (l). 

d) Nuevamente por f)1.2.9|) . 

Prob(w(n) > (1 +e)loglogiV 2 ) < o 6 (l) 

para n tornado al azar entre 1 y N. Tenemos, entonces, que hay a lo mas 
o(N 2 ) pares de enteros a,b < N tales que u(a • 6) < (2 — 3e)loglogJV, y a 
lo mas o(N 2 ) enteros n < N 2 tal que u(n) > (1 + e) log log Ahora bien, 
si n = a ■ b (y e es pequeho y A^ es grande) , se debe dar o lo uno o lo otro 
(puesto que log log A^ 2 = log log N + log 2). Concluimos que hay a lo mas 
o(N 2 ) enteros n entre 1 y A^ 2 tales que 

n = a ■ b 

para algiin par de enteros 1 < a, b < N. Esto es lo que queriamos demostrar. 
Examinaremos este problema en mas detalle cuando sepamos como obtener un 
termino de error y darle un significado. 
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5. Los niimeros desmenuzables. Momentos variables. Se dice que un numero es des- 
menuzable si solo tiene factores primos pequenos. Cuan comunes son los numeros 
desmenuzables? Esto es: cuantos numeros n de tamano N tienen solo factores 

primos < A 1 /**, donde u — > oo cuando N — > oo? (Por ejemplo: cuantos numeros 

i 

de tamano N tienen solo factores primos < N lo ^ lo s N ?) 
a) Consideremos A < n < 2N, z = A 1 /" y P(z) = Yl P <zP- P ara simplificar las 
cosas, comenzaremos considerando solo enteros n sin factores cuadrados; en 
otras palabras, nuestra meta inicial es acotar la probabilidad que un numero 
n tornado al azar entre A y 2A no tenga factores cuadrados ni factores 
primos > A 1 /". 

Diremos que n es u-desmenuzable si no tiene factores primos > A 1 / - ". Si n 
no tiene factores cuadrados, n sera u-desmenuzable si y solo si 

(1.2.25) gcd(n, P(z)) > N. 

Como P(z) = Yl p<z py n = Yi p \ n p son productos, y como preferimos trabajar 
con sumas, sacamos logaritmos en (jl.2.25p : 



loggcd(n, P(z)) > logiV. 

Ahora bien, loggcd(n, P{z)) = Yl P <z(^°&P) ' donde X p 
Por lo tanto, nuestra tarea es acotar 
(1.2.26) Prob(A" > logiV), 



1 si p\n, 
si p\ n. 



donde X = Ylp< z Q°&P) ' -^p y n es tornado al azar entre N y 2N. 

b) Podemos acotar Prob(X > log N) mediante Markov, o mediante Chebyshev, 
que no es sino Markov aplicado a X 2 , o a (X — E(X)) 2 ; de la misma ma- 
nera, podemos acotar Piob(X > logiV) mediante la desigualdad de Markov 
aplicada a X k , para un k positivo de nuestra eleccion. 

Para cualquier variable aleatoria X y cualquier numero par k > (o para 
cualquier numero k > y cualquier variable aleatoria X que tome solo valores 
no negativos), 

(1.2.27) Prob(X > t) < 

Esto no es sino Markov aplicado a X k . Las desigualdades de Markov y 
Chebyshev son los casos k = lyk = 2de (jl.2.27j) . A la utilizacion de 
(I1.2.27P para k general se le llama acotacion por momentos. (La expresion 
K(X k ) es llamada un momento.) 

c) Usaremos (I1.2.27P para estimar (11.2. 26p . Escogeremos k al final; no sera una 
const ante, sino una funcion de N. Veamos: 

try x k \ 

Prob(X > log AO < 



(log Nf 
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donde X = ^2 p<z (\ogp) ■ X p . Proseguimos: 



'-/'/. 



\pi,—,Pk<z 

= Y, (logpi)---Oogp fc ).E(X pl ---X p 

pi,...,p fe <z 

= J] (logpx) • • • (logp fe ) • E (X p[ ■ ■ ■ X p , 

Pl,...,Pfe<2 

donde p[ < . . . < p[ son los primos distintos entre pi, . . . ,pk- (Por ejemplo, 
si k = 4 y p\ = 3, p2 = 2, p% = 7, p<± = 2, entonces I = 3 y p[ = 2, p 2 = 3, 
P3 = 7.) Sabemos que 



(1.2.J 



e(^...x; 



pc 



1 

iV 





2iV 




N 




2iV 


( 


m 




m 


m 



< 



m 



donde m = p'jp 2 . . .pj. (Esta puede parecer una cota muy mala, pero, en este 

±- + ±- ) 

m ' N-> 



problema, es mejor para nuestra salud que < 1 1 



(1.2.29) 



Concluimos que 

E(X k ) -- 



E 

pi,...,p k <z 



2 (log pi) (log p 2 ) • • • (log pk) 



P1P2 ■■■P'i 



d) Para estimar la suma (jl.2.29p . tenemos que estimar cuantas veces los primos 
distintos p' x < p 2 < • • • < p\ aparecen disfrazados de pi,P2> • • • >Pfc- Hay l k 
maneras de colorear k objetos con I colores. Asi, 

E(x k )<2Yi k E (log^-^ 108 ^;;;^^. 

1=1 Vi<~<P'i<z Pi '"Pi 

Ahora bien, 



>p (log Pi) • • • (logpj) 1 ( V logP 



p'i<---<p;< 2 



/! \ < — ' p 

\p<z 



Sabemos que ^2 p<z — = logz + O(l) (ver (|1.1.16p ). Entonces 



e) Como h'm n ^ 00 (l + l/n) n = e, tenemos que (1 + (^is^i 
Queda por estimar 

k 



O 



(=1 



_ max — . 
Z! kkic /! 
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Como log/! = llogl — I + O(logZ) (formula de Stirling), tenemos que 

L = 0(1) ■ = o(l)e l+klosl - llosl . 

Verifique que, para k fijo, la funcion I + /clog / — llogl llega a su maximo 
cuando I es la solucion a k = llogl. Asf, 



E(X k ) < (logz) k e 0( - k ^° s ^ ■ 0(k 2 )e l+klog[ - k , 

donde I es la solucion a k = I log I. 
/) Aplicamos (|1.2.27l) : 



(1.2.30) Prob(X > log N) < e uw log ^O(^) • I 1 e 

Estimaremos gO^/ 1 ^ 2 )/;; 2 a i final; nuestra tarea ahora es encontrar el valor 
de k para el cual 

/ lncr v \ k J+klogl-k 

(1.2.31) (r^f) e»+*i°8'-fe- e 



log N J u k 
es mmimo (donde I es la solucion a k = llogl). Muestre que 

— (I + k log I — k — k log u) = log I — log u. 
dk 

Por lo tanto, el mmimo se encuentra cuando I = u, es decir, cuando k = 
ulogu. Notese que k no es una constante; por ello hablamos de momentos 
variables. Quizas resulte algo sorprendente que el valor optimo de k es u log u, 
puesto que esto es mayor que u (y, asf, z k > N; es por esto que escogimos la 
cota (ll.2.28|) ). 

Escogemos, entonces, k = ulogu. Obtenemos, por (|1.2.30p y (jl.2.3ip . 



(1.2.32) Prob(X > logiV) < e \ u ^) 0(u\oguf ■ e u - ulogu . 
Concluimos que, si z — » oo y u = — * oo cuando N —* oo, 

(1.2.33) Prob(n es li-desmenuzable y carece de divisores cuadrados) <C u^ u( - 1+ °^\ 

donde n es tornado al entre N y 2N. 
h) La desigualdad (jl .2.33H es todo lo que necesitaremos en nuestra aplicacion 
mas importante. Empero, es valido preguntarse que pasa si se retira la res- 
triccion que n carezca de divisores cuadrados. 
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(1.2.34) 



Usando (jl.2.33)) . vemos que 
Prob(n es u-desmenuzable) 

= Probfn es desmenuzable, k 2 \n y — ^ es libre de factores cuadrados) 

k 




para todo K. Ahora bien, para todo e > y todo k < N £ , 

iogAr/^v(^) (1+o{1)) flosN, V (^)(i + o(e))(i + o(i)) 
' ' - 1 (1 + 0(e)) ' 



log z J \ log z 

log z J 

suponiendo que z < ^N 1 ^ 26 , digamos. Por lo tanto, haciendo que K = N e , 
obtenemos de (|1.2.34j) que 

Prob(n es -u-desmenuzable) = ii~ u ( 1+0 ( e )) + O (^^j ■ 

Si (digamos) u = (logN)^ N \ donde f(N) — > oo cuando N ^ oo, entonces 
N~ e = 0(u~ u ). Haciendo que e — > 0, obtenemos 

(1.2.35) Prob(n es u-desmenuzable) = u - w(1+ ° W) + 0{ U - U ) = u - u{1+ ° W) 

bajo la condicion que z > (logiV)-^^ para alguna funcion / que satisfaga 
f(N) — > oo cuando N — > oo. 

Una condicion de ese tipo, i.e., una cota inferior z > para z, es en verdad 
necesaria para que (|1.2.35|) sea cierto. Por ejemplo, pruebe que, si z es una 
constante, Prob(n es u-desmenuzable) es mucho mayor que «~' u ( 1 + ( 1 )) . 



1.3. El lfmite central 

Ya conocemos E(u;(n)) y Var(o»(n)) para n un mimero tornado al azar entre 1 y N, 
donde N es grande. Quisieramos saber, de una vez por todas, cual es la distribucion de 
uj(n), en el lfmite N — > oo. 

Como antes, comenzaremos recordando que uj(n) es una suma de variables aleatorias, 
y enfocamos el problema de manera general. 

La siguiente observacion se remonta en alguna forma a de Moivre (1718): si algo es 
la suma de muchas pequenas cosas que nada o poco tienen que ver entre si, este algo 
tendra una distribucion en forma de campana. Antes de probar tal aseveracion, debemos 
ponerla en forma precisa. 
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0.3 - 



0.2 - 




FiGURA 1. La distribution normal f(t) 



2tt 



_ ' 2 / 2 . Este es el lfmite 



central de la distribution de u>(n): para n tornado al azar entre 1 y N, la 
probabilidad Prob(a;(n) < log log N + t^log log N) tiende a J_ f(x)dx. 



Teorema 1.2 (Teorema del limite central). Sean X\, X2, X%, . . . variables aleatorias 
mutuamente independientes. Asumamos que todas tienen la misma distribution; sea su 
esperanza E y su varianza V . Asumamos tambien que K(Xj) es finita para todo k > 0. 
Entonces —1= y^"_i (X{ — E) tiende en distribution a 



-t 2 /2 



(1.3.1) -^e 

cuando n — > 00. 

La distribution dada por la funcion de densidad (|1.3.ip es la afamada distribution 
normal (ver figura[T]). 

Antes de comenzar la demostracion del teorema, recordemos que la transformada de 
Fourier f : R — > C de una funcion / : R — > C se define como sigue: 

/oo 
e ite /(x)dx. 
-00 

La funcion /(i) = -^=e _ * 2//2 es un vector propio de la transformada de Fourier - es decir, 



para ese /, la transformada f(t) resulta ser un miiltiplo de f(t): f(t) = V2vr/(t). (La 
prueba esta en las notas al final de esta section.) Esta propiedad de la funcion f(t) = 
—^e~ l I 2 sera utilizada de manera crucial hacia el fin de la prueba siguiente. 

V27T 



Demostracion. Podemos asumir sin perdida de generalidad que E = y V = 1. 
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Dada una variable aleatoria X, definimos la funcion caracteristica 1 : f w E(e ). 
(Si X es continua, 

/oo 
e Ux f(x)dx, 
-oo 

donde / es la funcion de densidad de X; si X es discreta, 

X{t) = E(e itx ) = ^Prob(X = x)e itx . 

En (I1.3.2P vemos de manera especialmente clara que X no es sino una transformada de 
Fourier.) 
Tenemos 

1(0) =E(e i -°- x ) =E(1) = 1, 

y, como 

X'(t) = E{iXe itx ), 

se obtiene que X'(0) = E(iXe°) = iE(X). De la misma manera, X"(0) = -E(X 2 ), 
X"'(0) = -iE(X 3 ), etc. 

Sea ahora X cualquiera de las variables X{. Entonces X(0) = 1, X'(0) = E = 0, 
X"(0) = -V = -1, \X"'(t)\ = \E(-iX 3 e itx )\ < \E(\X\ 3 )\ < 1 + \E(X 4 )\ < oo. Ahora 
bien, si una funcion f(t) es derivable k + 1 veces alrededor del origen t = 0, y f^ k+1 '(t) 
esta acotada por una constante c cuando t esta cerca del origen, entonces 
(1.3.3) 

/(t) = /(0) + /'(O) •* + ••• + f (k) (°\ k + 0(c- t k+1 ) (serie de Taylor truncada) 

cuando t — > 0. (Asf como, cuando escribimos "0(/(n)) cuando n — > oo" queremos decir "entre 
— C • /(n) y C • f(n) cuando n es mayor que una constante", escribimos, similarmente, ll O(/(i)) 
cuando t — > oo" cuando queremos decir "entre —C ■ f(t) y C ■ f(t) cuando \t\ es menor que una 
constante"; de la misma manera, asi como "o(/(n)) cuando n — ► oo" quiere decir "entre —g(n)-f(n) 
y <?(") ' /( n )i donde g es alguna funcion con Hm n _>oo g(n) = 0", escribimos "o(/(t)) cuando £ — * 0" 
cuando queremos decir "entre —g(t) ■ f(t) y g(t) ■ f(t), donde lfmt->o <?(*) = 0"-) Como c • t — > 
cuando i — > 0, vemos por (|1.3.3I) que 



/(*) = /(0) + /'(0) •* + ■■■ + + «(* fc ) 



Por lo tanto, 



2 



l(t) = l-|+ (t 2 ) 



cuando i — ► 0. ^ 
Para cualquier r / y cualquier funcion /, la transformada de Fourier i/ de 

satisface = / (£) (por que?). Por lo tanto, para t fijo, 

(1.3.4) J_x(t)=x(^=)=l- — + o(—\ 



cuando n — * oo. (Fijense en H fijo" y "n — > oo"; hemos pasado a nuestro uso habitual de o(-).) 
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Cuando se tienen dos variables independientes X, Y, la variable X + Y tiene como 
distribucion la convolucion de las distribuciones (por que?). Ahora bien, la transformada 
de Fourier / * g de la convolucion / *g de dos funciones es igual a / g (por que?). En con- 
secuencia, X + Y = X - Y . Repetiendo el proceso, obtenemos que la funcion caracterfstica 
de Xi +X 2 + ... + X n es Xy -X 2 ---X n . 

Estamos considerando S n = ^Y^j=x^-j- Vemos ahora que, por (|1.3.4|) . su funcion 
caracterfstica debe ser 



(1.3.5) 



Sn 



X 



t 



1 



I_ 

2n 



+ o 



cuando n —* oo. 

Para e pequeno, tenemos (1 + e) 



1 



2n 



+ o 



-) 

2n J 



e e+ ° (e2) . Por lo tanto, 



1 + 



n 



1 + 



cuando n — > oo. Ahora bien, 



1 + 



cuando n 
(1.3.6) 
cuando n 



oo. Asf, concluimos que 



, t 2 ft 2 \ 

1 ho — 

2n \2n 



-t 2 /2 



oo. Por (jl.3.5p y (jl.3.6p . obtenemos finalmente que 



-t 2 /2 



cuando n — > oo. (Puede que la velocidad de convergencia dependa de t, pero esto no nos importa; 
el resultado que estamos por utilizar es robusto en ese sentido.) 



La transformada W de la normal W 



-t 2 /2 



es precisamente e" 



-t 2 /2 



ver las not as). 



Tenemos, entonces, que, para cada t, S n (t) tiende a W(t) cuando n — > oo. Invocamos un 
resultado del analisis (teorema de convergencia de Levy; ver notas) y concluimos que S n 
tiende a W cuando n — > oo. □ 

La idea central de la siguiente prueba alternativa nos sera de utilidad cuando exami- 
nemos u(n). El metodo es llamado metodo de momentos. 

Esbozo de otra demostracion. Compararemos los momentos 

E(S n ), E(S%), E(S 3 n ),... 

de la variable S n = — 1= Y^j=i Xj con l° s momentos E(5), E(S 2 ), E(S 3 ), . . . de una variable 
S de distribucion normal. 

Por integracion por partes, podemos ver que E(S k ) = (k — l)(k — 3)(k — 5) • • • 3 • 1 
para k par; como S es simetrica con respecto al eje y, esta claro que E(S' fc ) = para k 
impar. Podemos verificar que E(5*) = (k - l)(k - 3){k - 5) ■ ■ ■ 3 ■ 1 + o k (l) para k par, y 
E(S^) = Ofc(l) para k impar (ver el problema [3]) . 
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Como los momentos de S n convergen a los momentos de S y la distribution normal sa- 
tisface ciertas condiciones tecnicas, podemos concluir que S n — > S utilizando un resultado 



Condiciones del teorema del limite central. Hemos asumido tres cosas acerca de las va- 
riables Xf. (a) que son mutuamente independientes, (b) que tienen la misma distribution, 
(c) que, para cada k, E(Xj) esta acotada independientemente de j (lo cual es lo mismo 
que K(Xj) < oo, si (b) se cumple). 

Tanto (b) como (c) pueden relajarse; la condition de Lindeberg funge por las dos (nota 
[5]). Es mas diffcil prescindir de (a); hay algunas herramientas estandar para tal tarea, pero 
ninguna cubre todos los casos que aparecen en la practica. 

Antes de ver como podemos arreglarnoslas sin (a), hagamos dos cosas: primero, ve- 
riflquemos que la falta de (b) en el caso que mas nos interesa es inocua; luego, veamos 
como, en muchos otros casos, la falta de (b) (y de la condition de Lindeberg) hace que la 
conclusion sea falsa - es decir, que el limite no sea normal. 

Sean X' 2 , X' 3 , X' 5 , . . . variables mutuamente independientes con la siguiente distribu- 
tion: 



(Escojemos los signos X' 2 , X' 3 ,X' 5 , . . . porque usaremos X2, -X3, X5, . . . mas tarde.) 



EntoncesE(X;) = ±, E((X> p -E(X> p )) 2 ) = V a r(X' p ) = E(\X p -E(X> p )\ 3 ) < i. Por 



consiguiente (ver (I1.3.3P y las lmeas inmediatamente precedentes) , la funcion caracterfstica 



auxiliar estandar (nota [4]). 



□ 



(1.3.7) 




1 con probabilidad 1/p 

con probabilidad 1 — 1/p. 



de X' p - E(X' p ) es 




Por el mismo razonamiento, la funcion caracterfstica de 




{X'-E(X' p )) es 





Definimos S' n 
vemos que 



Vlog log n 



1 



E P <n( x 'p ~ Usando la regla X + Y = X Y y (fTA8|) 





cuando n — > 00. Por el teorema de Chebyshev-Mertens (j!.1.17[) 
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cuando n — > oo, y en consecuencia 

= e -t 2 /2-(l+o t (l)) _^ e -t 2 /2 

cuando n —* oo. Por el teorema de convergencia de Levy, concluimos que S' n converge en 
distribucion a la normal (jl . 3. 1 1) . 

* * * 

Consider emos, en cambio, variables X' 2 , X' 3 , X' 5 , . . . mutuamente independientes tales 

que 

, I 1 con probabilidad p p 

p 1 con probabilidad 1 — p p , 

donde P2,P3, ■ ■ ■ son tales que ^2 p p p converge. Entonces ^2 p ^(X' p ) < oo y Xax{^2, p X' p ) = 
^2 p Xar(X p ) < oo. La funcion de distribucion de S' n = ^2 p<n X' p tendera a un h'mite no 
normal f(x). Ver el problema[6l 

* * * 



El limite central de u)(n). Sean, ahora, X2, X3, X5, . . . variables dadas por 
(1.3.9) X p = 



si p\n, 
si p \ n, 



donde n es un entero aleatorio entre 1 y N. Como ya sabemos, u(n) = J2 P <n -^p- Queremos 
probar que la distribucion de u>(n) (o, mas bien dicho, —?==== (uj(n) — log log n)) tiende 
a la normal. 

Cuando calculamos la varianza de cu(n), vimos que las variables X p son casi indepen- 
dientes en pares: X pi y X p2 son aproximadamente independientes para pi,P2 < N 1 ^ 2 ~ e , 
Pi 7^ P2 cualesquiera, y, en total, los terminos de error son pequenos. Empero, las variables 
X p estan muy lejos de ser mutuamente independientes. Que podemos hacer? 

Podemos probar el teorema del limite central para uj{n) por el metodo de momentos. 
Cuando calculamos el momento K(u>(n) k ), solo necesitamos el hecho que las variables X p 
sean casi independientes "de a k": k variables distintas cualesquiera entre X2, X3, X5, . . . 
son aproximadamente independientes, por la mismas razones que ya vimos para k = 2. El 
termino de error dependera de k, y por lo tanto la tasa de convergencia de K(uj(n) k ) a su 
limite dependera de k; empero, al metodo de momentos esto no le importa (notaHJ). 

Pasemos esto en limpio. 

Teorema 1.3 (Erdos-Kac [4]). Sea n un entero tornado al azar entre 1 y N con la 
distribucion uniforme. Entonces Yn = ~?g^g N (^i 71 ) — log log A^) tiende en distribucion a 



1 _,2 



t 2 /2 



/2?r 

cuando N — > 00. 



La demostracion que veremos se debe a Billingsley; incluye varias ideas de la prueba 
de Erdos y Kac (1939) y de la prueba de Halberstam (1955). 

Como antes, expresaremos uj{n) como una suma ^2 p<N X p . Asf como, para utilizar 
la desigualdad de Chebyshev, tuvimos que truncar la suma ^ p <at X p (reemplazandola 
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por Y1 p <n 1 / 3 X p ), tendremos que truncarla ahora (aun mas, ya que la reemplazaremos 
por J2 P <g(N) Xp, donde g(x) crece mas lentamente que cualquier potencia de x). Prime- 
ro mostraremos que esta truncacion no nos es danina - es decir, que el total omitido 
Ylg(N)<p<N X p es pequeno; luego procederemos a determinar la distribucion de la suma 
truncada ^p< 9 (iv) X p utilizando el metodo de momentos. 

Demostracion. Sea g{x) una funcion tal que g{x) = o e {x e ) para todo e > y 
loglogx — loglogg(x) = o(\/log log x) ; podemos tomar, por ejemplo, g(x) = x 1//loglog:c . 
Vemos inmediatamente que 

Y N = (1 + o(l)) • / = (u{n) - log log AT). 
A/log log g(N) 

Ahora bien, 

^2 l/p = loglogg(A r ) + 0(1) = log log N + o( y/log log N) 

P<g{N) 



= log log N + o(ydog log g(N)). 

Concluimos que 

(1.3.10) Y N = (l + o(l))- 1 L(n)- Vp|+o(1). 

Vio g io g5 (iv) ^ p ^ (JV) y 

Definamos ahora 

(1-3.11) 5 m = * 1/p)), 

V log log m 

donde X p es como en (jl.3.9p . Esta claro que u>(n) = J2 p <n -^p, Y por lo tanto u(n) 
Yl p <g(N) Xp es igual a S ff (7V)<p<7v -^p- Calculamos la esperanza de esto ultimo: 




1 

(1-3.12) \g(N)< P <N J g(N)< P <N P 



Z = \og\og N -\og\og g{N) + 0{l) 



o (v/loglogAr) = o (y/\oglog g(N) 



Como AT p toma solo valores positivos, la desigualdad de Markov nos permite deducir de 
(J1.3.12P que 



1 




o(l) 



y/\og\og g{N) 

con probabilidad 1 — o(l). Concluimos (por f)l .3. 1 1 j) y (|1.3.10p ) que 
(1-3.13) Y^ = (l + o(l))5 fl(JV) +o(l) 

con probabilidad 1 — o(l) cuando A?" — > oo. En consecuencia, si probamos que S g rm tiende 
en distribucion a la normal, habremos probado que Y/v tiende en distribucion a la normal. 

Hasta ahora, nuestra labor ha sido solo preparatoria: lo mas que hemos hecho es truncar la 
suma J2 p <n y m °strar que el efecto de tal truncacion es pequeno. A continuacion, nuestra tarea 
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es averiguar cuales son los momentos de S g (jy) ■ Sea k > 0. Sean X' p como en (|l,3.7p y S' m = 
Viogtogm T,p< m ( x p ~ 1 /P)- Para k primos P!,p 2 , ■ ■ ■ ,Pk cualesquiera (no necesariamente 



1 


N 


1 


N 


_~d_ 


~ d 



1 



distintos), 

\E(X Pl X P2 ...X Pk )-E(X' pi X> p2 ...X> pk )\^ - - - < 
donde d es el mmimo comun multiple de p\,P2, ■ ■ ■ ,Pk- P° r 1° tanto, 
E(S k g(N) ) = E((S' g{N) ) k ) + O k (g(N) k • I) , 

puesto que g{N) k es el numero de terminos que aparecen cuando se expande (S' g , N ^) . 

Como gi(JV) = o e (iV e ), sabemos que O (g(N) k ■ i) = o fc (l). 

Ya vimos (despues de fjl.3.T[) ) que la distribucion de S' m tiende a la normal cuando 
m —* oo; por lo tanto, los momentos E((5^) fc ) de S m tienden a los momentos E(W k ) de 
la normal W. Tenemos, entonces, que 



Km E((S' 

N^oo 



E(W k 



□ 



para todo k. Concluimos que Sgtm converge en distribucion a la normal, y, por lo tanto, 
Yat converge en distribucion a la normal. 

Notas y problemas 

1. Debemos probar que la transformada de Fourier 



/(*) 



e Ux f(x)dx 



de f(x) = -j^e x2 ^ 2 es igual a e * 2 / 2 . Una de las maneras mas simples es la 
siguiente. Tenemos que 

/(*) = 



Atx 



— oo 
1 



Completando cuadrados, 
f(t) = 



2tt 

-t 2 /2 . 



~ x2 / 2 dx 



D (- it )y2 e -(x-itr/2 dx 



-(x-itf/2 dx _ 



Por el teorema de Cauchy en el analisis complejcQ, aplicado a la funcion e z2 ^ 2 
(analftica en todo el piano complejo), tenemos que 



(1.3.14) 



-* 2 / 2 dx 



El lector que no quiera utilizar el analisis complejo (el cual estamos evitando en general) puede 
saltarse este parrafo y ver la prueba alternativa al final de la nota presente. 
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Asf tenemos que f(t) = c ■ e~* 2 / 2 , donde c es la constante c = e~ x2 l 2 dx. 

Solo falta calcular c. Haremos esto en una de las formas mas conocidas - evaluando 
la integral de e~( x +v ) en el piano en dos maneras distintas. 
Por una parte, 



(1.3.15) 



oo poo 

2 i„,2 



^^dxdy = / ^l 2 I • ' ' 

X — x \J — oo / 

oo \ 2 

e -*>,2 

-oo 



Por otra parte, cambiando de coordenadas rectangulares (x, y) a coordenadas 
polares (r,6), obtenemos 

oo poo p2n poo 

/ e'^+^dxdy = / e~ r2 / 2 rdrd9, 

— oo J — oo JO JO 

puesto que dxdy = rdrdO. Un breve compute muestra que 

p2TT poo poo 

(1.3.16) / / e~ r ' 2/2 rdrd6 = 2tt e^^rdr = 2vr • 1 = 2vr. 

Jo Jo Jo 

Comparando (|1.3.15j) y (11. 3. 16ft . vemos que 

oo 

e~ x2 / 2 dx = v 7 ^. 

-oo 

Por lo tanto, c = 1, y, asf, concluimos que f(t) = e - * 2 / 2 . 

Como, en general, no estamos asumiendo ningun conocimiento del analisis 
complejo, es bueno indicar una prueba alternativa que no utilize el teorema de 
Cauchy (el cual usamos en el paso (11.3.140 ). Una manera conocida es la que sigue. 
La funcion f(x) = -^i^e~ x ^ puede ser descrita como la solution (necesariamente 
linica) al problema de valor inicial dado por las siguientes condiciones: f'(x) = 
—xf(x), /(0) = Tenemos 



/OO / 1 \ poo poo 

( Jt {eUXf{x)) ) dx = ixe ltx f(x)dx = -i (-xf(x))e Ux dx 

oo 

itx , 



f'{x)e ltx dx 



Hacemos una integration por partes, y obtenemos 

d r °° 



f'(t) = i I f( x )^-(e ltx )dx = -t / f(x)e ltx dx = -tf(t). 

J —oo 6^ J —oo 

Tambien tenemos que 

/(0) = -= / e~ x2 / 2 dx = 1, 

como probamos con anterioridad. Asf, la funcion g(t) = -^=/(t) satisface las 
condiciones g'(t) = —tg(t), g(0) = -^=. Como / es la unica funcion que satisface 
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tales condiciones, concluimos que g{t) = f(t). Por lo tanto, 
f(t) = V2^g(t) = v^F/(t) = e"* 2 / 2 , 

como queriamos demostrar. 

2. El siguiente es un resultado muy litil del analisis "suave" ; la prueba involucra argu- 
mentos de compacticidad y convergencia, aparte de una transformacion oportuna. 

Teorema 1.4 (Teorema de convergencia de P. Levy). Sean X±, X2, X%, . . . 
variables aleatorias con funciones caracteristicas X±, X2, X3, .... Asumamos que, 
para todo real t, la sucesion Xi (i) , X2 (t) , . . . tiene un Umite f(t). Si f es continua 
alrededor de t = 0, entonces f es la funcion caracteristica X de alguna variable 
aleatoria X, y las variables Xi, X2, X3, . . . convergen a X en distribucion. 

La prueba puede encontrarse en [6l Vol. 2, §XV.3, Teorema 2]. 

3. Sean X±, X2,Xs, . . . variables independientes con esperanza 0, varianza 1, y E(XJ) 
acotada para todo j y todo entero r entre y k. Queremos estimar la esperanza de 
(X\ + X2 + . . . + X n ) k . Comencemos expandiendo esta potencia en sus terminos: 

(Xt + x 2 + ... + x n ) k = x k + x*~ 1 x 2 + ■■■ + x x x\x\-*x n + ■■■. 

a) Muestre que los terminos donde algun Xj aparece a la potencia 1 tienen 
esperanza 0. (Decimos que Xj aparece a la potencia a si el termino es de la 
forma . . . Xj . . . ; por ejemplo, Xj aparece a la potencia a en X\XJX"^.) 

b) Muestre que hay a lo mas O^n^ -1 " 2 ) terminos (o Ofc(n fc / 2-1 ) si k es par) 
donde aparecen solo potencias > 2 y por lo menos una potencia > 3. 

c) Nos quedan los terminos donde toda variable que aparece, aparece a la po- 
tencia 2. Tal cosa puede ocurrir solo cuando k es par; escribamos k = 21. 
Muestre que cada termino de la forma antedicha (es decir, cada termino que 
contenga solo cuadrados, e.g., XfX^Xf ) ocurre exactamente veces. 

d) Si k es impar, concluimos que E((Xi + X 2 + . . . + X n ) k ) = O^n^ -1 )/ 2 ). 
Si k es par, concluimos que K((Xi + X2 + . . . + X n ) k ) es igual al numero 
de terminos distintos que contengan solo cuadrados, multiplicado por ^r, 
mas Ok jC (n k ^ 2 ~ 1 ). A continuacion, estimaremos este numero de terminos de 
manera indirecta. 

e) Expandamos la expresion (xi+X2 + - ■ .+x n ) 1 . Hay a lo mas Ok{n l ~ l ) terminos 
donde aparecen potencias > 1. Muestre que cada termino donde no aparecen 
potencias > 1 ocurre l\ veces. 

/) Los terminos de {x\ + X2 + . . . + x n ) 1 donde no aparecen potencias > 1 estan 
en correspondencia uno a uno - sin contar el numero de ocurrencias - con 
los terminos de {X\ + X2 + ■ ■ ■ + X n ) 21 que contienen solo cuadrados. 

g) Definamos ahora Xj = 1 para todo j] entonces (x\ + X2 + ■ • • + x n ) 1 se vuelve 
n l . Concluya que hay + Ofc(n' _1 ) terminos distintos donde no aparecen 
potencias > 1. 

h) Obtenemos inmediatamente que hay j^n 1 + Ofc(n' _1 ) terminos distintos en 
{X\ + X2 + . . . + X n ) k que contienen solo cuadrados. Concluya que 

E((Xi + X 2 + ... + X n ) k ) = ((k - 1) • (k - 3) • • • 3 • 1) • n k l 2 + O k (n k l 2 - 1 ) 
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para k par, y E((JTi + X2 + . ■ ■ + X n ) k ) = para k impar. 

4. El metodo de momentos es valido gracias al resultado siguiente. 

Teorema 1.5. Sean X±, X2, X3 ... y X variables aleatorias tales que K(X k ) 
y ¥,(X k ) son finitos para j,k > cualesquiera. Supongamos que los momentos 
de Xj convergen a los momentos de X: lrraj_> o0 K(X k ) = K(X k ). Supongamos 
tambien que K(X k ) < C k para algun C > y todo k > 0. Entonces X\, X%, X3, . . . 
convergen en distribucion a X . 

La idea principal de la prueba es que los momentos de una distribucion X 
determinan la serie de Taylor de X(t) alrededor de t = 0. La condicion ¥,(X k ) < 
C k asegura que la serie de Taylor alrededor de t = tenga radio de convergencia 
infinito; asf, la serie determina X, y, por ende, determina X. Para ver una prueba 
completa, consultar, por ejemplo, [21 §30, Teoremas 30.1 y 30.2]. 

La condicion ^j|E(X fc )| < C k se cumple para casi toda variable X "razonable" . 
He aquf un ejemplo de un X para el cual la condicion no se cumple, y, mas aun, 
la conclusion del teorema no es cierta: sea X = e Y , donde Y es una variable de 
distribucion normal. 

5. Las condiciones del teorema del lmiite central se pueden relajar de varias formas. 
La siguiente es una de las formas mas comunes. 

Teorema 1.6 (Teorema del lmiite central - Lindeberg). Sean X\, X2, X3, . . . 
variables aleatorias mutuamente independientes. Sean 



S n = ^(Xj - E(Xj)), s n = V / Var(5 n ) 
3=1 



^Var(X,). 
i=i 



Supongamos que, para todo e > 0, 

* fj(t)dt < 00, (condicion de Lindeberg) 



17) Km £ 1 / f 

si J\ t \>es n 



donde fj es la funcion de densidad de Xj. Entonces S n /s n tiende en distribucion 
a la normal —k=e~ t2 l 2 cuando n — > 00. 

V 2-7T 



Si Xj es discreta, entonces, claro esta, la condicion de Lindeberg se escribe 



n 1 

h'm ^2 — x 2 Pvob(Xj = x) < 00. 



'j=l Sn x:\x\>e 

Esbozo de una prueba. Se procede como en la primera demostracion que 
dimos del teorema del lmiite central. La condicion de Lindeberg sirve para mostrar 
que 

n ■ / 1 

h'm > 

3=1 V 



Xj/s n {t)- [l--t 2 V a r(X J )/s 2 n 
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para todo t. Esto nos permite mostrar que 

sj7 ri = J[(i-\t 2 ^(x j )/ s i\ + (i) 

j<n ^ ' 
= H e -!* 2 Vax(X,)/4 + o(1) = e -t»/2 + o(1)) 

j<Tl 

que es lo que deseamos. □ 

Para una prueba completa, ver [6j XV. 6, Teorema 1]. La condicion de Linde- 
berg (|1.3.17p es basicamente necesaria ([BJ XV.6, Teorema 2]). 
6. Sea 

_ 1 1 si p 2 |n 
P lo sip 2 fn, 

donde n es tornado al azar entre 1 y N. Sea C = X^ p <at (Como, para p > yN, 
no hay entero n < N tal que p 2 |n, tenemos que C = X^pCp = S p < v / ivCp-) En 
otras palabras, C es la variable aleatoria que da el numero de cuadrados de primos 
que dividen un entero tornado al azar entre 1 y N. Estudiemos la distribution de 
C. 

a) Muestre que 

nc)= E c P = E ^ + °(^ 1/2 ) = E^+°(^ 1/2 

p<Vn p <Vn p 

b) Muestre que 

Prob(C7 = 0) = Y[ (l - i ) + O (N- 1 / 2 



Por consiguiente, lmi7v->oo Prob(C = 0) existe y es igual a Y\ p ^1 — ^-j . El 

evento C = no es sino el evento que n carezca de divisores cuadrados (i.e. 
d 2 | n para todo entero d > 1). 
c) Muestre que, para todo k > 0, 

prob ( c7 = ^)= Y,* ^- (n( 1 -^)+ (w-r 1/2 )) 

l<m<VN \Pt m / 

(1.3.18) w(m)=* 

m 2 n ( p2 ) ^ ( )' 

m>l c+m 



m>l p\m 
Lu(m)=k 
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donde ^* denota una suma solo sobre enteros sin divisores cuadrados. Por 
lo tanto, lfmjv-^oo Prob(C = k) existe y es igual a 



^ — -v* 

' m 

m>l pfm 
cj(m)=fc 

Tenemos, entonces, que C converge a una distribucion discreta cuando N — * 
oo. Esta distribucion no es la normal (ya que es discreta) ni se le parece (no 
es simetrica alrededor de E(C): la probabilidad de C < es cero, pero la 
probabilidad de C > 2E(C) tiende a un valor positivo). Lo crucial aquf es 
que lmi/v-i-oo E(C) < oo, es decir, el hecho que J2 P ^(^p) = J2 P converge. 
En cambio, cuando examinabamos X = Yl p X P , tem'amos que, como J2 PP 
diverge, la esperanza E(X) tendi'a a oo cuando N — ► oo y la distribucion 
h'mite era la normal. 
d) Muestre que, para todo k, 

\ k 

Prob(C = fe) < tt 
fe! 

donde A = -w. La distribucion 
t—' P P z 

(1.3.19) ^ 

es la famosa distribucion de Poisson; se trata del lnnite n — > 00 de la distri- 
bucion de Y n = Y nt i + . . . + Y nin , donde {Yi,j}i,j>i son variables mutuamente 
independientes con la distribucion 



y . 



con probabilidad X/n 
con probabilidad 1 — X/n. 



(Demuestre que Y n tiende, en efecto, a (11. 3. 19ft .) 

Hemos, entonces, acotado la distribucion de C por una distribucion de Pois- 
son de esperanza A. Esta no es una cota "ajustada": pruebe que 

Prob(C = k) <C 
para todo e > 0, y, en consecuencia, 

Prob(C = k) = o 

cuando k — > 00, e incluso 

Prob(C > k) 

Sea 



e 

~k\ 

A* 
fe! 

1 

fe! 



D p 



si p\m y p\n 
de lo contrario, 
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donde (m, n) es un par de numeros entre 1 y JV tornados al azar de acuerdo 
a la distribution uniforme. Sea D = J2 P D p . Entonces el evento D = no es 
sino el evento que m y n sean primos entre si. 
Muestre que 

Prob(D = 0) = Yl (l - 4) + OiN- 1 ), 

Prob(D = k)= ^-n( 1 -i)+°(^ 1 )- 

m>l p\ m K P / 

ut(m)=k 

Compare esto con (jl.3.18p . Como en (|6rf|) . concluya que 



Prob(L> >k) = o 



1.4. Grandes desviaciones: cotas superiores. Valores crfticos. 

Sean X\,X2, ■ ■ ■ variables aleatorias mutuamente independientes con la distribution 



(1.4.1) X 



3 



con probabilidad 1/2 

1 con probabilidad 1/2. 



Sea X = Y^j< n Xj- Sabemos que K(X) = ^ny que la distribution de X sera cercana a la 
normal alrededor de \n. Que pasa lejos de ^n? 

En general, hablamos de pequenas desviaciones cuando la distancia entre el valor de 
X y la esperanza E(X) es 0(y / Var(X)), y de grandes desviaciones cuando la distancia es 
comparable a Var(X) o E(X). Podemos preguntarnos, por ejemplo, que tan a menudo se 
dan las grandes desviaciones u(n) < ^ log log n o uj(n) > 6 log log n. 

En el caso de las variables (jl.4.ip . podemos hacer los calculos a mano. Tenemos 
Prob(X = m) = 2~ n ■ ( n J para todo m. Por lo tanto, 



Prob(y > an) = 2~ n ^ r] 

m>an / 



para todo a, donde 

n\ n! l-2-3----n n{n — 1) • • • (n — m + 1) 



jn J (n — m)\m\ (1 • 2 • • • • (n — m)) • (1 • 2 • • • • m) 1 • 2 • • • • m 

es el mimero de maneras de escoger m cosas de entre n cosas. (Tenemos n posibilidades 
para la primera cosa elegida, n— 1 posibilidades para la segunda, . . . , n—m+1 posibilidades 
para la m-esima, y no importa en que orden de los m\ ordenes posibles hayamos elegido 
las m cosas. Por lo tanto, hay "( n ~ ji^grZg+jJ maneras de escoger.) 

Fijemos un a E [1/2, 1]. Como m i— ► (^) es decreciente para m > ^n, tenemos 

(1.4.2) 2~ n ( r n \ <Prob(y>an)<(n+l)2- n f r n _ 

\\an\J \\an 
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Ahora bien 
lo. 

asi que 



/n 
log xdx + 0(log n) = n log n — n + 1 + 0(log n) 



log ( J = nlogn — {{n — m) log(n — m) + mlogm) + O(logn) 

= -n- 1 -log 1 + — log— + 0(logn). 



(1.4.3) 

= -n-((l- 

n / \ n / n n 
Por (fTX2ll y (fTX3l) . para a>\, 

2 -n 

log(Prob(y > an)) ~ log (fla(1 _ a)(1 _ a))n + O(Iogn) 

= n(— a log a — (1 — a) log(l — a) — log 2) + 0(log n). 

En otras palabras, Prob(y > an) = e^ + °^ 1 ^ n , donde 

(1.4.4) # = _ a i « _(i_ a )i og i_^ 

U,5 U,5 

La forma de (jl.4.4p puede resultar familiar para los ffsicos (o qumiicos). Elaboraremos 
esta observacion para mas adelante; ahora, pasemos a estudiar oj{n). 

* * * 



(1.4.5) X' 



v 



Sean X' 2 , X' 3 ,X' 5 , . . . variables mutuamente independientes con la distribucion 

1 con probabilidad | 
con probabilidad 1 — |. 

Sea X' = ^2 p<N X' p . La esperanza E(X') es log log N + O(l). Nos preguntaremos cuanto 
es la probabilidad Prob(X' < a log log N), a < 1, o Prob(X' > a log log N), a > 1. 

Markov acota las cotas mediante E(X'), Chebyshev mediante K(X' 2 ); muy bien pode- 
mos usar K(X' k ), o incluso E(e x '). En efecto, para a positivo y a > 0, 

E ( r" A " 

(1.4.6) Prob(X' > a log log iV) < ■ 



a-a log log N ' 

y, para a positivo y a < 0, 



(1.4.7) Prob(X' < a log log N) < 



E ( e aX ' 



gQ-a log log AT ' 



Asi como la desigualdad de Chebyshev es simplemente la desigualdad de Markov aplicada 
a la variable X' 2 , las desigualdades (|1 .4.6j) y (|1.4.7p son simplemente la desigualdad de 
Markov aplicada a la variable e aX ; tenemos la libertad de escoger el parametro a como 
mas nos convenga. (La aplicacion de la desigualdad de Markov a una variable de la forma 
e aX es a veces denominada el metodo de momentos exponenciales; los momentos "usuales" 
sonE(X'), E{X' 2 ), E(X' 3 ),...) 
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Como evaluar K(e aX ')7 Tenemos 

e aX ' = e a T, P <N x ' P = e aX p. 

p<N 

Como X' 2 , X' 3 , X' 5 , . . . son mutuamente independientes, las variables e aX '^ , e aX s , e aX '$ , . . . 
tambien lo son, y por lo tanto 

E(e aX ') = E ( J] e aX ? J = J] E (f x 'v) . 

\p<N J p<N 

Es facil calcular que 

E(> x p) =l + l( e Q -l). 

En consecuencia, 

(1.4.8) E(e^')=n(l + ^(e a -l))«n( 1 + ^) e 

p<N y p<N V y J 

(Esto es cierto aun si a < 0, o incluso a = — oo. Demuestre la desigualdad en (jl.4.8p 
si esta no lo convence de inmediato; use el hecho que ILka^U + Vp 2 ) ^ 1> puesto que 
n„(l + 1/p 2 ) converge (por que?).) Ahora bien, 



gEp<JV p 



(1.4.9) e £*<^< JJ (l + -)< 

y, como Y1 P <N p = log log iV + O(l) (Chebyshev-Mertens (j!.1.17j) ). obtenemos que 

(1.4.10) E fe QX ') < a LiogiogNV"- 1 = ( logN y a -\ 



Podemos ahora sustituir (jl.4.10p en (|1.4.6p y (|1.4.7|) . Nos queda escojer el valor optimo 
de a. Para a > 1 y a > 0, 



Prob(A" > aloglogiV) « Q = ^ XY " 

para a < 1 y a < 0, 



(log AQ e °- 

s «-a log log N 



Prob(X' < aloglogAT) « Q = (log N)^^ . 

Debemos minimizar e a — 1 — era para a positivo y fijo, cuidandonos que a sea negativo si 
a > 1, y positivo si a < 1. Sacando derivadas, vemos que e a — 1 — era es mmimo para a 
dado cuando a = logo. Entonces 

Prob(X' > a log log iV) < a (log N)-(^sa+i-a) pam Q> ^ 
{LLU] Prob(X' < a log log N) <C a (log jv)-(iloga+i-a) para Q < L 

Hemos obtenido las cotas superiores que deseabamos para las grandes desviaciones de X' = 
J2p<N-Kp, donde X' p es como en (ll.4.5p . Las constantes implfcitas en (11.4. llf> dependen 
de a, pero de manera continua; por lo tanto, la misma constante puede servir para todo 
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a < A, A dado. (La constantes implfcitas en (|1.4.11|) dependen de manera continua de 
e a — 1 = e loga — 1 = a — 1, por lo cual la dependencia en o es continua aiin cerca de a = 0.) 

* * * 

Como de costumbre, pasamos a examinar las variables X2, X3, X5, . . . dadas por 



X p 



si p\n, 
si p \ n, 



donde n es tornado al azar entre 1 y N con la distribution uniforme. Sea X = tu{n) = 
^2 p<N X p . Las desigualdades (II. 4, 6ft y (I1.4.7P son aun validas; partamos de ellas. 

El problema es evaluar E(e aX ) = E(e aw ( n )). Si bien e aX = e aE f<^ Xp = Y[ p<N e aX ?, 
no podemos concluir que K(e aX ) = E (^e a ^v<N x p^j — J3 p<7V E (e aXp ), ya que las variables 
X p no son mutuamente independientes. Empero, podemos mostrar sin mucha dificultad 
que 

e ^ <- n (1 + *° G + ? + ■■■))* n ( 1+ IT « (log 

n<Af p<iV v 7 7 p<Af v F/ 

(por (I1.4.9P ) y deducir con mas trabajo de esto que 

n<N 

(ver problema [T|) . Por lo tanto, ~E(e au} ( n ^) <C (logAT) 6 " -1 . Fijamos a = log a como antes, y 
concluimos (por (jl,4.6p y (|1.4.7|) ) que 

Prob(w(n) > aloglogiV) < (log Ar)-( al °s s i a > 1, 
(L L1_) Prob(cj(n) < aloglogiV) « a (logA^)-( alosa+1 - a ) si a < 1. 

Las constantes implfcitas en (ll.4.12p dependen de a de manera continua - aiin en la 
vecindad de a = 0. 



Tanto (|1.4.1ip como (|1.4.12p son cotas superiores. Encontraremos dentro de poco cotas 
inferiores muy cercanas a estas cotas superiores; mientras tanto, contentemonos con una 
aplicacion de (ll,4.12p . 

Cuantos enteros n entre 1 y iV 2 pueden expresarse como el producto n = a ■ b de dos 
enteros a, b entre 1 y iV? En otras palabras: si escribimos una tabla de multiplicacion de 
1000 por 1000 (digamos), habra un millon de numeros en la tabla, y todos estos numeros 
estaran entre 1 y un millon; empero, como hay muchas repeticiones, podemos preguntarnos: 
cuantos de los numeros entre 1 y un millon estan presentes en la tabla? 

Este es el conocido problema de la tabla de multiplicacion. Lo encontramos por primera 
vez en §1.2|, ejercicio [H donde probamos que el numero de enteros n < N 2 que aparecen 
en la tabla (i.e., n = a-b para algun par 1 < a,b < N) es o(N 2 ). Ahora estableceremos 
una cota superior bastante mas ajustada. 
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Comenzamos de la misma manera que antes: tomamos conciencia de que, si bien la 
esperanza de co(n) (para n tornado al azar) es 

E(w(n)) = loglogiV 2 + 0(l) = loglogAT + 0(l), 

la esperanza de u>(a ■ b) (para a, b tornados al azar) es 

E(w(a-6)) =E(w(a)+w(6)-ti;(mcd(a,6))) = E(w(o))+E(w(6))-0(l) = 21oglogiV+0(l). 

Por lo tanto, el numero de divisores u(n) de todo numero n = a-b (n < N 2 , a,b < N) debe 
estar ya sea en la cola de la distribucion de uj(n) o en la cola de la distribucion de uj(a-b). 
Ahora que sabemos como acotar las colas distantes (es decir, las grandes desviaciones) de 
uj{n) = X = YlpXp-, podremos dar una buena cota superior para la (poca) probabilidad 
de uj(n) dentro de una u otra distribucion. 

Estamos en una situacion que ya es propia no solo de las probabilidades, sino de la 
estadi'stica. La situacion es asf: hay una variable aleatoria observable U; su distribucion 
se desconoce, pero se tienen dos conjeturas acerca de esta. Hablemos, entonces, de la 
distribucion 1 y la distribucion 2. La esperanza Ei(£7) de U segun la distribucion 1 es 
(digamos) u±, mientras que la esperanza ^(U) de U segun la distribucion 2 es 112 > u\. 
La tarea es determinar cual de las dos distribuciones es mas verosmhl. 

Debemos ponernos de acuerdo en un valor critico t entre u\ y U2- Si, despues de n 
mediciones de U, vemos que el promedio X = j t {U\ + U2 + ■ ■ ■ + U n ) es menor que t, 
decidiremos la disputa en favor de la distribucion 1; si X > t, daremos la razon a 2. La 
pregunta es: que valor critico t debemos escoger? 

Si la distribucion 1 es la verdadera distribucion de U, la probabilidad de decidir la 
disputa erroneamente a favor de la distribucion 2 es Probi(X > t) (donde Probi(...) 
denota la probabilidad de un evento si se asume que la distribucion 1 es la cierta). Si 
la distribucion 2 es la cierta, la probabilidad de errar a favor de la distribucion 1 es 
Prob2(X < t) (donde Prob2(. . . ) denota la probabilidad de un evento si se asume que la 
distribucion 2 es la cierta). Resulta sensato, entonces, escoger el valor de t entre u\ y 112 
para el cual 

Probi(X > t) + Prob 2 (X < t) 

sea mmimo. 

En el caso del problema de la tabla de multiplicacion, estamos ante una situacion 
parecida. Fijaremos un t entre 1 y 2. Para todo n = a ■ b, a,b < N , tendremos ya sea 
uj{n) < t log log N o uj{n) > t log log N. En el primer caso, cualquier par a,b < N tal que 
n = a • b tendra que estar en el conjunto {(a, b) : 1 < a, b < N, u(a ■ b) < t log log iV}, y el 
numero de elementos de este conjunto es iV 2 multiplicado por 

Prob(u;(a • b) < t log log N), 

donde a y b son tornados al azar entre 1 y N con la distribucion uniforme. En el segundo 
caso - es decir, u>(n) > t log log iV - el numero n estara en el conjunto {n : 1 < n < 
N,Lo(n) > t log log iV}, cuyo numero de elementos es iV 2 multiplicado por 



Prob(w(n) > t log log iV), 
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donde n es tornado al azar entre 1 y N 2 con la distribution uniforme. Por lo tanto, el 
conjunto de enteros n < A^ 2 tales que n = a ■ b para algun par a, b < N tiene a lo mas 

(1.4.13) N 2 • (Prob(w(n) > t log log N) + Prob(w(a • b) < t log log N)) 

elementos. Queremos, entonces, escoger t tal que (|1.4.13p sea tan pequeno como se pueda. 

Para hacer esto, debemos primero estimar (jl.4.13p . Gracias a nuestra cota de grandes 
desviaciones (|1.4.12p . 

Prob(w(n) > tloglogiV) = Prob(u;(ra) > £ log log N 2 - t log 2) 

(1.4.14) = Prob(u;(ra) > t(l - o(l)) • log log N 2 ) 

< (logATr /( * )(1+o(1)) , 

donde I(t) = tlogt + 1 — t. Queda acotar Prob(u(a • b) < i log log A/"). Esta claro que 

oj(a • b) = u(a) + u(b) — w(mcd(a, b)). 

Por §1.31 ejercicio l6el la probabilidad que mcd(a, b) sea > e log log N es <C (log^)^ 100 (o 
cualquier otra potencia que se quiera). (Hay varias maneras simples de evitar el uso del ejer- 
cicio l6et la ventaja de este ultimo es que nos permite continuar sin salir nunca de un marco 
probabilistico.) Bastara, entonces, con estimar la probabilidad que (u(a),u(b)) quede en 
un cuadrado C*t a ,t b de lado e log log N que contenga el punto (t a log log N, tf, log log N) , 
donde t a + tj, < t + e. El maximo de tal probabilidad, multiplicado por el numero de 
cuadrados a considerar (el cual es 0(l/e 2 ) = O e (l)), nos dara una cota superior para la 
probabilidad de uj{a ■ b) < t. 

Como a y b son variables independientes, la cota de grandes desviaciones (|1.4.12p nos 
dice que la probabilidad que (u(a),u(b)) este dentro de Ct a j b es 

< (l giV)- (/(M+/( ' b))+0(e) , 

donde I(t) = tlogt + 1 — t. Nos estamos preguntando, entonces, cual es el maximo de 
I (t a ) + I(tb)i bajo la condition que t a + tf, < t. Sacamos la segunda derivada de I(x) y 
vemos que siempre es positiva. Por lo tanto, la grafica dexi-> I{x) se curva hacia arriba, 
y, asf, \{I{t a ) + I(tb)) > / ( ta + tb ) , Como t esta entre 1 y 2, y I(x) es decreciente en el 
intervalo entre 1/2 y 2/2 = 1, vemos que I (^ k ) > I(t/2+e) = I(t/2)+0(e). Concluimos 
que 

(logjV)~ (J(ta)+/(ii))+ ° (e) < (logiV)" 2/(</2)+0(e:) . 

Por lo tanto, 

(1.4.15) Prob(w(a ■ b) < t log log N) < (log N)- 2I{ - t/2)+ °^ . 

Comparando (|1.4. 14|) y (jl.4.15p . vemos que tenemos que escoger t £ [1, 2] de tal manera 

que 

mm(I(t),2I(t/2)) 

sea maximo. Ahora bien, I(t) es creciente y 2I(t/2) es decreciente en el intervalo [1,2]. Por 
lo tanto, el maximo de mm(/(t), 2I{t/2)) se alcanza cuando I(t) = 2I(t/2). Resolvemos 
I(t) = 2I(t/2), y encontramos t = Hemos probado el siguiente resultado: 
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Teorema 1.7 (Erdos [3]). El nuraero de enteros n entre 1 y N 2 que pueden ser 
expresados como el producto n = a ■ b de dos enteros a, b entre 1 y N es 

o 6 (n 2 • (logivr 7 fe) 

para cualquier e > 0, donde I(t) = tlogt + l — t. 



Numericamente, I 




= 0,08607 



Notas y problemas 

1. Debemos estimar Yln<N e a ^ n \ donde a > 0. Si se usan metodos anah'ticos - 
que no trataremos para evitar el analisis complejo - esto es rutina (dentro del 
metodo de Selberg-Delange - ver, e.g., [Sj II.5]). Veremos como obtener de ma- 
nera elemental una cota superior "del orden correcto" (es decir, <C la asintotica 
verdadera) . 
a) Primero deduzca de (I1.1.5P que 



(1.4.16) 




b) Acotemos Y. n <N e ^ (n) / n: 

e aw(n) < Y\ d af 1 1 , 1 A A 

n<N p<N V 7 7 

p<N V y y J 

c) Podriamos concluir que ^2 n < N e auj ^ « N^ n ^ N ^-^- <C N(logN) e ", lo 
cual es correcto, pero esta cota se aleja de la realidad por un factor de (log N) 
(como veremos despues). Como obtendremos una mejor cota? 

(Como dijimos, es rutina obtener la "suma parcial" ^2 n<N e Qa, (") a traves del analisis 
(no elemental) de la funcion L(s) = Y^Li e Qw( -™- ) n _s . Estamos tratando de obtener 
la suma parcial Y^n<N e aul ^ meramente de la suma parcial ^2 n<N e au ^n _1 , y 
quizas de un par de propiedades de e™'"'.) 

La convolution f * g de dos funciones /, g : Z + — > C es (/ * g)(n) = 
Yld\n f{d)g(n/d). A menudo, en la teorfa anab'tica de numeros, es conve- 
niente expresar una funcion como la convolution de dos otras. Ya podemos 
obtener la suma parcial de h(n) = e aw(n ) * 1, donde 1 : Z + — > C es la funcion 



(1.4.17) 
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(1.4.18) 



l(n) = 1: 

E^hEE^-^E^E 1 

n<N n<N d\n d<N m<N 

d\m 

AT e au>(d) 



d 



« Q iV(log^) f 



d<N d<N 

Ahora bien, queremos conocer la suma parcial de e auj ( n \ no la de e au) ^ * 1. 
d) Utilicemos el hecho que log = 1 * A. (Esto no es sino (jl.l.lOp .) Tenemos que 

J2 e aw(n) log(n) = ^e aui - n) K{n/d). 

n<N n<N d\n 

Ahora bien, u(n) — 1 < co(d) < uj(n) para todo n y todo d\n tales que 
A(n/d) / 0. Asf, 

e a ^ n Hog(n) < Y.e. a ^ d) K{n/d). 

n<N n<N d\n 

De (|1.1.14l) y (ll.4.18|) . se deduce que 

J2 ^ e a ^ d) K{n/d) = e aui{d) E A ( m ) 

n<N d\n d<N m<N/d 

< J] e Qw(d) • N/d < Q A^(log A^) e ". 



(1.4.19) 



d<N 



Por lo tanto, 



£ e QW (") log(n) < Q A^(log A^) e ". 



n<N 



Usando la tecnica de la suma por partes ( §1.11 nota ([I])), deduzca de esto que 

E e au{n) ^: a N (log Ny a -\ 



n<N 



La constante imph'cita en <C depende de a, tanto aqm como antes. La de- 
pendencia es continua en a (o, si se prefiere, en (3 = e a ; la dependencia es 
continua aiin en la vecindad de (5 = 0). 

1.5. Grandes desviaciones: cotas inferiores. Entropfa. 

Consideremos dos compartimientos separados por una membrana porosa. Llenemoslos 
con un gas: 
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De cuantas maneras puede ocurrir que haya m partfculas en el compartimiento de la 
izquierda y n — m en el de la derecha? 

(m) = m\(n-m)\ maneras de escoger m partfculas de entre n\ por lo tanto, hay (^) 
maneras que haya m partfculas en la izquierda y n — m en la derecha. 
Como log n! = log 1 + log 2 + . . . + log n = n log n — n + 0(log n), 

log ( ) = log n! — log ml — log(n — m)\ 
\m ) 

(1.5.1) = n log n — m log m — (n — m) log(n — m) + 0(log n) 

fm, m n — m, n — m\ , 

= —n ■ — log 1 log + C(logn). 

\n n n n J 

Que pasa si cada una de las 2 n maneras de colocar n partfculas en dos compartimientos 
es igualmente probable? (Hay 2 n maneras porque, dada cada partfcula, podemos elegir en 
cual de dos compartimientos puede encontrarse.) Obtenemos de (jl.5.ip que la probabilidad 
que la proporcion de partfculas en el comportamiento izquierdo sea r = — es 



log □ 

— c 

,n(H(r)+o{i)) 



g—n(r log r+(l— r) log(l— r)+log 2)+0(log n) 



= e 

donde 



H{r) = — (r log r + (1 — r) log(l — r) + log 2) 

r 1 
r log h (1 — r) log ■ 



0,5 v ' ° 0,5 
La cantidad H{r) no es sino la famosa entropia. Comparese con (ll.4.4p . 

Claro esta, no hay razon ffsica por la cual podamos asumir que todas las disposiciones 
iniciales son igualmente probables; muy bien podemos comenzar llenando solo uno de los 
compartimientos con gas. Empero, resulta poco sorprendente que, en la practica y con 
el paso del tiempo, el sistema tienda a las proporciones (r : 1 — r) que resultarfan mas 
probables si las 2 n disposiciones fueran igualmente probables. Lo que hemos mostrado 
es que esto es lo mismo que decir que la entropfa H{r) del sistema tiende a crecer. (Esta 
tendencia es muy clara, ya que H(r) esta en el exponente de e n ^ H ^ + °^ ; por eso se habla, 
en la termodinamica, de una ley segun la cual la entropfa siempre crece.) 

* * * 

Ahora que vemos que las expresiones del tipo rlogr aparecen en un modelo de un 
fenomeno natural, resulta sensato esperar que el hasta ahora curioso exponente de a log a+ 
1 — a en (|1.4.1ip y (jl.4.12p no sea simplemente una consecuencia de nuestra incapacidad. 
Nuestra tarea consiste ahora en dar cotas inferiores cercanas a las cotas superiores en 
(|l,4.1ip y (jl.4.12p , y de esta manera mostrar que el exponente a log a+l—a verdaderamente 
describe la probabilidad de las grandes desviaciones. 

Comenzemos, como de costumbre, examinando variables mutuamente independientes 
X' 2 , X' 3 , . . . de distribucion 

. 1 1 con probabilidad - 

p y con probabilidad 1 — | . 
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Sea X' = ^2 p<N X' p . Queremos dar cotas inferiores para Prob(X > a log log N), a > 1, y 
Prob(X < a log log N), a < 1. 

Utilizaremos el metodo del ladeo exponencial. Definimos nuevas variables Yz, I3, I5, . . . 
mutuamente independientes y de distribucion 

fl conprobabilidad|.(l + ^i)^ 
con probabilidad M - Ij . M + 2=1 J . 
(Esta claro que estamos "ladeando" las variables hacia 1, pero donde esta la "exponencial"? 
En Y p , la probabilidad 1/p se ha vuelto a/p = a}-(l/p)-(l + ', la probabilidad 1—1/p 

se ha vuelto a • (1/p) ■ ^1 + • Si X p tomara los valores 2, 3, • • • con probabilidades 

no nulas, multiplicariamos dichas probabilidades por a 2 , a 3 , • • • , respectivamente. El factor 
de ^1 + esta alh simplemente para asegurar que la suma de las probabilidades sea 

1-) 

Sea Y = ^2 p< nY p . El evento Prob(Y > a log log N) no es una gran desviacion, sino 
un evento probable. Por el teorema del lhnite central, 

Prob(a log log N < Y < a log log N + yja log log N) = \ —=e~ x I 2 dx + o(l) 
(1.5.3) ' J v v2vr 

>^ + o(l), 

(digamos). Sea I el intervalo (a log log TV, a log log N + \] a log log N] . Comparemos 
Prob(X' > a log log AO = ^ Piob(X' p = x p \/p < N) 



(1.5.4) 



{x P }p<N- x p e{o,i} 



- si x p = 1 



Si Xr> = 



{x p } p < N : x p €{0,l} P<N I 1 P aLUj P 

T, p <n x p> al °g l °s N 

y 

(1.5.5) 

Prob(y € I) = Prob(y p = x p Vp < N) 

{ x p}p<N- x p £{0,l} 
5Zp<jV x v 

- e nib ;;: p :;-n(i+^)" 

2 prob(x;=x P v P <iv)- n (1+— ) n «• 

Ep<JV x p 
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Nuestro deseo es ir de la cota inferior (I1.5.3P para (|1.5.5p a una cota inferior para 
(|1.5.4p . Todo termino Prob(Xp = x p Vp < N) de la suma en (|1.5.5p aparece en (|1.5.4p . 
puesto que Y1 p <n x p ^ J = (a log log TV, a log log TV + V a log log iVJ implica Y1 p <n x p > 
a log log N. Claro esta, en (jl.5.5p . el termino Prob(Xp = x p Vp < N) aparece con dos 
f actor es; uno de ellos es 

n (» + a -irT «« n (' + «« (lo^)-'- 1 ', 

p<JV v ^ 7 p<N v ' p/ 

y el otro es 

p<iV: x p =l 



Como ^2 p<N x p G /, sabemos que ^ p <at x p < a log log iV + a/<x log log N. Por ende, 

J~J a < fl a log log N+y/a log log iV _ 
p<N: x p =l 

Concluimos que 

Prob(Y G I) < a Prob(X > a log log TV) • a aloglogW+Valoglog w • (log iV)-^" 1 ) . 
Por lo tanto 



Prob(X' > aloglog TV) > a Prob(Y G I) • a -(aiogiogJV+Vaio g io g JV) . ( logA r)«-i. 
Como sabemos que Prob(Y G J) > g + o(l) (por (jl.5.3p ). obtenemos 

Prob(X' > a log log TV) > a I a -(<»iogiogJV+VaiogiogJV) . (i ogA r)«-i 

(1.5.6) 5 

> (io g iV)-( alo g a - a + 1 )- c, (( al/2lo g a )-( lo g lo g iV ) _1/2 ) 

para a > 1. Mediante exactamente el mismo metodo, podemos obtener 

(1.5.7) ProbpT < a log log iV) »„ (log N )-(^oga~a+l)-0((a^ logaMloglogAO" 1 / 2 ^ 

para a < 1. Hemos obtenido, entonces, cotas inferiores para complementar a (|l,4.1ip . La 
constante implfcita en 3> es continua en a. 

* * * 

Aun nos falta derivar cotas inferiores similares para las variables 

J 1 si p\n 



sip] n. 



Veremos que hay un metodo muy general para ir de resultados sobre X' p a resultados 
sobre X p . Ya pudimos haberlo utilizado para traducir las cotas superiores Prob(Y' > 
a log log N) <C ••• en cotas superiores Prob(X > a log log N) <C . . . . Hemos esperado 
hasta ahora en parte porque el metodo depende de un resultado tecnico comunmente 
considerado diffcil: el lema fundamental de la teoria de cribas. (Ver el problema [1] al final 
de esta seccion; en este se desarrolla una prueba de una version debil del lema fundamental 
- la unica version que necesitaremos.) 
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Como de costumbre, comenzaremos truncando las sumas. Definimos S m = X^p< m ^P' 
y, en vez de trabajar con X = Sjy = J2 p <n X p , trabajaremos con # g (jv)> donde g(N) es 
un poco menor que N. Acotaremos la diferencia X — S g m\ al final, ya que a estas alturas 
esa parte es rutinaria. Escogeremos g(N) en el ultimo paso. 

Sea S' m = Yl P <m X' p - Debemos comparar £ g (jv) con S' g , N y o, mas precisamente, mostrar 
que Prob(5 g (jv) > a log log N) (o Pvob(S g ^ N ^ < a log log N)) es aproximadamente igual a 
Prob(jS^/jyA > a log log N) (o con PTob(S' g , N \ < a log log N)). Ya tenemos cotas para S' g , N y 
gracias a (fTX6|) y (IT377|I (con X = ^ (JV) ). 

Tenemos, por una parte, 

(1.5.8) Prob(5 g(J v) > aloglogiV) = Yl Prob(X p = x p Vp < g(N)), 

{ x p}p<g(N)- Zp6{0,l} 
Ep< 9 (N) x P> a lo S lQ g N 



y, por otra, 



Prob(5; (JV) > a log log iV) = £ Prob(X p = ^ p Vp < ff (iV)) 

i x p} P < g (N) - x p e{a,i} 

E p < 9 (iv) z P >aloglog7V 



(1.5.9) 

e n \i 

E p < 9 (iv) analog log JV 



i si x p = 1 
i si x p = 0. 



Consideraremos primero los terminos de f 1 1 . 5 . 8 j) con \\ px =1 p < N 1 e . (Aqui e > es un 
numero fijo cualquiera entre y 1.) 

Sea m = T\ p . x =1 p. Supongamos que m < N 1 ^ 6 . Sea S = {p < g(N) : x p = 0}. 
Entonces 

Prob(A p = x p Vp < g(N)) = — Prob(A p =0 VpS S), 

donde en el lado derecho de la ecuacion las variables X p dependen de un numero n tornado 
al azar entre 1 y N/m, no entre 1 y N. Por el lema fundamental de las cribas (problema 
[U teorema ll.8j) . 

Prob(X p = Vp € S) = JJ ( 1 - - J • (1 + CU((log N/m)- A )) 

pes ^ p ' 

= l[(l-±).(l + A ((logN)- A )) 
P es ^ Pj/ 

para cualquier A, siempre y cuando logg(iV) <C i gWj(r/ ro ) • Esto ultimo ciertamente tiene 
lugar si g(N) = o ( ^°f ^ N J (donde utilizamos el hecho que m < iV 1_e ). 
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Asumamos, entonces, g(N) <C f ^ N . Po demos entonces concluir que 

Prob(X p = x p Vp < g(N)) 

{ x p} P <g(N) - z P e{o,i} 

T,p<g(N) X P> al °S^gN 



es igual a 



£ Tf ~ I II (l-;)-(l + OA(0ogJ>T)- A )), 

fe} P < 9( iV):^e{0,l} Ll P:Xp = lf p :Xp =0 V ^ 
E p < 9( iv) ^ P >iloglogAf 



lo cual no es sino 

(1 + A ((log N)~ A ) ■ Yl Prob(X; = x p Vp < <?(iV)), 

E p < 9 (iv) ZpXJloglogJV 

es decir, la suma de los terminos de (I1.5.9P con Y\ p . x =1 p < iV 1 ~ e , multiplicada por 

(1 + A {(logN)- A )) . (Este es el paso crucial del metodo: hemos logrado ir de una suma 
que involucra a Prob(X p = x p Vp < g(N)) a una suma que involucra a Prob(Xp = 
x p Vp < g(N)), donde las variables X' p son las variables mutuamente independientes que 
estudiamos al principio de la seccion.) 

Nos queda acotar los terminos de (|1.5.8p y (jl.5.9p con Yl p . x =1 p > N 1 ^ 6 . En un caso 
como el otro, el total de tales terminos es a lo mas 

E 1 



QcP 



UpeqP 



donde P es el conjunto de los primos p < g(N). Por un resultado intermedio (jl.5.201) en 
la prueba del lema fundamental de las cribas, 

_ i / /Ari-\\-( log (^r))- (1+o(1)) A 

x <(log 5 (jV))- log — — <. A (\ogN)- A 



log N 



QcP 
U P e Q P> Nl 



para cualquier A > 0, donde utilizamos el hecho que log(iV) = o 
Concluimos que 



log N J • 

(1.5.10) Prob(S 9(iV) > a log log N) = Prob(S' g{N) > a log log N) + A ((log N)~ A ) 



para cualquier A > 0, bajo la condicion que g(N) = o 



log N 
log log N 
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La desigualdad (|1.5.6|) puede aplicarse directamente a S g rjf\: como la definition de 
las variables X' p no involucra a N, podemos simplemente utilizar g(N) en vez de N. 
Obtenemos 

Prob(Sj (JV) > a log log AT) » (log 5 (iV))-( alo s a - a + 1 )+ ( 1 ). 

Si log log N — loglogg , (A r ) = o(loglog N), entonces log g(N) > (log N) 1 ^ ^. Por ende, 

Piob(S' g{N) > a log log AO » (l O gA0~ (aloga ~ a+1)+o(1) 

bajo la condition que log log N — loglog <?(./V) = o(log log iV). La ecuacion (I1.5.10P nos 
permite deducir de esto que 

(1.5.11) Prob(5 9(7V ) > a log log AT) > (log N y(a\oga-a+l)+o(l) 

Empero, procederemos de manera distinta. Mostraremos que la probabilidad que X — 
Sg(N) > e' log log se satisfaga es muy pequena - si es que g(N) satisface una cierta 
condition facil de cumplir. 

Por Chebyshev-Mertens, J2 g (N)<p<N p = loglog A^ — log log g(A r ) + 0(1). Procediendo 
exactamente como en §1 .41 (problemas Hal 1161 v comienzo de llcp . podemos mostrar que 



^ e a(X-S g ( N) )j < ^ e loglogAr~loglo gg (Ar)+0(l) 



para todo a. (Podriamos continuar como en el resto de Q1A\ problemaHJ y reemplazar e a 
por e a — 1, pero esto no sera necesario.) Por Markov, 

f e log log iV-log log g(N )+0(l) \ e " 

(1.5.12) Prob(X - S g{N) >x)< A _ >— 

para cualquier a. Si loglog^ — log log g(N) + 0(1) = o(x), podemos escoger a = A + 1 
para A arbitariamente grande, y entonces (jl .5. 12|) nos da que 

(1.5.13) Prob(X - S g{N) > x) <. A e~ Ax 

para N suficientemente grande. Escogemos x = e' log log iV (con e' > arbitrariamente 
pequeno) y A = A' /e' (para A' arbitrariamente grande). Concluimos que 

(1.5.14) Prob(X - S g(N) > e' log log N) < A / (log N)~ A ' 

para N suficientemente grande, si se cumple la condition que loglog N — log log g(N) = 
o(log log AT). 

Atemos los cabos. Por (|1.5.1ip . 

(1.5.15) Prob(AT > a log log N) > Pmb{S' g(N) > a log log N) > (log jy)-(«ioga-a+i)+ (i) 
para a > 1. Pasemos al caso a < 1. Por (jl.5.1ip y (|1.5.14j) . 

Prob(X < a log log N) > Prob(S g{N) < (a - e) log log N) 

-Prob(X -S g{N) >e , loglogA^) 

> (iogAr)-(( a - e ') lo g( a - e ')-( a - e ') +1 )+ W -0 A , >e ,((logN)- A ') 

para A' arbitrariamente grande y e' > arbitrariamente pequeno. Como t — ► t log t — t + 1 
es continua, esto implica que 

(1.5.16) Prob(A: > aloglogA^) » (log jv)-( al0 « a - a+1 ) +o ( 1 ). 
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(a*log(a) - a + 1) 



-0.5 



-1.5 




-2 -i 



0.5 



1.5 



2.5 



FlGURA 2. La distribution de uj(n), vista desde lejos, en escala logarftmica. 
Este es el grafico de y = —I(x) = — (xlogx — x + 1). La probabilidad de 
Lo(n) > t log log N (si t > 1) o w(n) < t log log TV (si t < 1) es igual a 
(logA^)- / (*)+°( 1 ), lo cual es lo mismo que (logiV)^ 1 ) • J t °°(log N)~ r ^dx (si 
i > 1) o (logiV) o(1) • jJ(logJV)~ I(a,) da; (si t < 1). 



Queda solamente verificar que existe un g(N) que satisface las condiciones impuestas: 



log g(N) = o 



log jV 
log log N 



y log log N — loglog<?(iV) = o(loglogiV). La funcion g(N) 



(iog°ogjV)^ (P or e j em Pl°) satisface ambas condiciones. 



Hemos obtenido nuestro objetivo. Recordando (| 1 .4. 12|) y X = oj(n), concluimos que 

(logiV)- (aloga+1 - a)+o(1) <C a Prob(w(n) > a log log N) <C a (log jv)-(oioga+i-a) si a > lj 

(logAf)- (aloga+1 - a)+o(1) < a Prob(cu(n) < a log log TV) < a (log jv)-(ai°g»+l-a) s i a < 1, 

donde n es tornado al azar entre 1 y N. Las constantes dependen de a de manera continua. 

Notas y problemas 

1. Lema fundamental de las cribas (version debil). 

Sea z = A rl / S , donde s — * oo cuando N — ► oo. Sea P un conjunto de primos 
< z. Queremos determinar cuantos enteros n < N son coprimos con todo 
p £ P. 
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a) Cuantos enteros n < N son impares? La respuesta es el numero de enteros 
n < N (es decir, N) menos el numero de enteros n < N que son pares (es 
decir, [N/2\). Muy bien - la respuesta es TV - [N/2\ = AT/2 + 0(1). Cuantos 
enteros n < N son coprimos con 2 y 3? Tomamos los N enteros n < N, 
restamos los [N/2\ enteros divisibles por 2 y los ^JV/ 3j enteros divisibles 
por 3, y nos damos cuenta que hemos sustraido los enteros divisibles tanto 
por 2 como por 3 (es decir, divisibles por 6) por partida doble; tendremos 
que contarlos una vez de vuelta. Vemos, entonces, que el numero de enteros 
n < N coprimos con 2 y 3 es 



N 



N 




N 


+ 


N 


~2 




~3 


~6 



N N N 

N + — +3 

2 3 6 



1 



1 



0(1) 
N + 0(1). 



(1.5.17) 



Seguimos razonando de la misma manera (enfoque que tiene el nombre de 
principio de inclusion- exclusion) y concluimos que la probabilidad que un 
n < N tornado al azar sea coprimo con todo p £ P es igual a 



EM) 

QcP 



\Q\ 



Prob(n es divisible por todo p £ Q) 



QcP 



-1)\Q\.L 
' N 



N 



UpcQP 



E 

QcP 



v ' N 



N 



UpcqP 



+ E 

QcP 
U P eQP> Nl 

para cualquier e > 0. Muestre que esto es 
1 



(_1)IQI J_ 
V ; N 



N 



UpcQP 



n 

pCP 



1 



- + O (error) + 0(N~ e ) + O (error), 

v; 



donde 



(1.5.18) 



error 



E 

QcP 



U p cqP' 



Habremos terminado una vez que acotemos este termino de error, 
b) Podemos escribir (|1.5.18|) de la siguiente manera: 



(1.5.19) 



error 



E E 

A:=0 Afl-^2 fc <n<A rl - f 2* : + 1 
p|n=>p<z 



1 



< 



n 



E 

fc=0 



1 



E* 



A rl - f 2 fc <n<A rl - f 2 fc + 1 
p|n=>p<z 



donde E^* denota que la suma recorre solo aquellos enteros n que no tienen 
divisores cuadrados. Lo que es verdaderamente crucial es que todo numero 
n en la sumas en (jl .5. 19[) es desmenuzable, i.e., no tiene factores primos 
grandes. 
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Podemos, entonces, utilizar (|1.2.33p . que nos da la (mas bien pequena) pro- 
babilidad que un numero sea desmenuzable (y libre de divisores cuadrados). 
Obtenemos 



(1.5.20) error < ^ 



oo 

-« fe (l+o(l)) 



k=0 



donde u k = ^ 



c) Como u k = a + kb, donde a = lo f ^ z — = (1 — e)s y b = tenemos 

u -u k (l+ (l)) ={a + kb) - {a+kb){1+o{1)) 

< a -a(l+o(l)) e -A;6(l+ (l))loga_ 

Por lo tanto 

oo 

error < a^ 1 ^ 1 " ^ e" fc5 , 
donde <5 = 6(1 + o(l)) log a. Muestre que ^fclo ^ 1 P ara 5 > °- Asi '> 

„-a(l+o(l)) i„„. ^ 

error « °L « ^£ • ((1 - e)s )-(i-)-(i+°(D) 

6 log s 

«(logz) S ^ 1 - 2 ^ 1+ °«). 

El error (logz)- s -(i-2e)s-(i+o(i)) sera 0((log iV)~ A ) cuando s > 3^ ^°^ . 
Si s 3> log log N, el error sera <Ca (log N)~ A para todo A > 0. 

d) Hemos probado 

Teorema 1.8 (Lema fundamental de las cribas, version debil). Seaz = N 1 / 8 , 
donde s 3> log log N. Sea P un subconjunto de {p < z : p primo}. Entonces, 
para n tornado al azar entre 1 y N, 

(1.5.21) Prob(n es coprimo con todo p G P) = (1 + o(l)) • Y\ ( 1 J . 

p<=P ^ ^ ' 

ExpUcitamente, 

Prob(n es coprimo con todo p 6 P) 



Y[ (l - ^ + O ((log z) • s -(i-2«)-d+o(i))) + QiN 1 -) 



(1.5.22) peP 

=(i+o A ((io g iv)-^)-n fi- \ 



P6 P v P 

para cualquier e > y cualquier A > 0. 

Nota. La version fuerte del lema fundamental de las cribas consiste en la ase- 
veracion que (jl.5.2ip rige no solo para s S> log log N, sino para todo s — > oo. 
No probaremos la version fuerte aquf. 
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2. El lema fundamental es muy razonable: como la probabilidad que n sea coprimo 
con unpGP dado es 1 — 1/p, la ecuacion fjl .5.2 1 [) nos dice (como muchas otras 
cosas que hemos probado) que los eventos p\n se comportan hasta cierto punto 
como variables mutuamente independientes. Empero, si z = N 1 ^ y s no va a oo 
cuando N — » oo, la ley (|1.5.2f h no rige. 

Mostremos esto en el caso mas simple. Si z = N 1 / 2 y P es el conjunto de 
todos los primos p < P, entonces n es coprimo con todo p G P si y solo si n es 
primo. La probabilidad que n sea primo es 

(este es el teorema de los numeros primos, el cual no probaremos). La aseveracion 

(|1.5.2ip nos daria, de otro lado, (1 + o(l)) • \[ p <^i/2 y- ~ pj- ^ e P ue de mostrar 
que 

donde 7 es la constante de Euler 7 = 0,577 .... Lo importante aquf es que 
2e~ 7 7^ 1, por lo cual la prediction natural (jl.5.24j) no es compatible con la 
realidad (|1.5.23|) . 

3. Desviaciones moderadas. 

a) Si X — ~E(X) esta en la escala de y / Var(X) (es decir, entre ^/Yar(X) 
y 1000y / Var(X), por ejemplo), hablamos del limite central, o de pequenas 
desviaciones. Si X — E(X) esta en la escala de Var(X) o E(X), hablamos de 
grandes desviaciones. Aun no hemos examinado el caso en el cual X — E(X) 
es bastante mas grande que y / Var(X) y bastante mas pequeho que Var(X); 
como cabria esperar, esto se llama una desviacion moderada. 

Lo que queremos examinar es 

Prob(X > (1 + A(N)) log log N) y Prob(X < (1 - A(N)) log log N), 

donde A(N) > 0, A(N) = o(l) y (log log iV)- 1 ^ = (A(iV)). (Si A(N) = 
o(l) no se cumpliera, tendrfamos una gran desviacion; si (log log N)~ l l 2 = 
o(A(N)) no se cumpliera, tendrfamos una pequeha desviacion.) 

b) Las cotas superiores de grandes desviaciones son aun validas, como podemos 
ver repasando sus pruebas. Por lo tanto: 

Prob(X > (f + A(A0)loglogA0 < (log N)~^ 1+A ^ N) \ 

donde 1(a) = a logo — a + f . Mediante una serie de Taylor, verifique que 

7(1 + A(A0) = \A\N) + 0(A 3 (iV)) = U\N) • (1 + o(l)). 
Concluimos que 
Prob(X > (f + A(A0)loglogA0 < (log N )-^ 2 (N)-(i+o(i)) ^ 
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y, similar mente, 
Prob(X < (1 - A(iV))loglogiV) < (log AT) 



-iA3(JV).(l+o(l)) 



c) Las cotas inferiores tendran que ser rehechas con mas cuidado: el sumando 
de o(l) en el exponente de (|1 .5. 15|) y (|1.5.16p es ahora demasiado burdo, ya 
que —(a log a + 1 — a) sera bastante mas pequeno que o(l). 
Las cotas (I1.5.6P y (11.5. 7p son aiin validas. Muestre que, como estamos asu- 
miendo (log log iV) -1 / 2 = o(A(N)), las cotas (|1.5.6p y (|1.5.7p toman la forma 



(1.5.25) 



Prob(X' > (1 + A(A0)loglogA0 » (log N)~* *»(i\0-(i+o(i)) 
Prob(X' < (1 - A(JV))loglogJV) > (logiV)~2 



-iA 2 (7V).(l+o(l)) 



d) La transition de X' a X se hace como antes. La unica dificultad reside en el 
hecho que ya no basta probar que Prob(X — S g i^\ > e' log log N) es pequeiia; 
debemos asegurarnos que Prob(X — S g ^) > e'A(N) log log N) sea pequena. 
Para esto tendremos que modificar el valor de g(N). 
Sustituya x = e'A(N) log log N y A = 1/e en (| 1 . 5 . 1 3 1) y obtenga 



(1.5.26) Prob(X - S g{N) > e'A(N) log log N) < (log N) 



-A (TV) 



bajo la suposicion que log log N — log log g(N) + 0(1) = o(A(JV) log log N). 
Como ^A 2 (A^) = o(A(iV)), el termino de error (jl.5.26p es mucho mas chico 
que el termino principal (log iV)~ 2 A2 ( Ar )( 1 +°( 1 )) . 
e) Muestre que se puede definir g(N) de tal manera que 

/ log N \ 

logff (N) = o( ° y loglogA^-loglogg(^) = o(A(A^) log log iV). 

Vlog log ivy 



(1.5.27) 



Recuerde que A(N) Vlog log N.) Concluya que 

Prob(X' > (1 + A(iV))loglogiV) < (log N)-^ 2 ^< 1+ °^ 

Piob(X' < (1 - A(JV))toglogiV) < (logiV)-^ 2 ^-^ 1 ^. 

/) Podemos escribir t = A(N) ■ (log log N) 1 / 2 . (La desviacion es entonces A(N) ■ 
(log log N) = t^/log logiV.) Esta claro que 

(logiV)-i A2 ( iV >( 1+0 ( 1 )) = e-s* 2 ^ 1 )) 

Asi, (jl.5.25p y (|1.5.27p nos dicen que la normal nos da, por lo menos, una idea 
aproximada de la escala de la probabilidad de las desviaciones moderadas. 

4. Podemos utilizar el lema fundamental (aiin en su version debil) para dar una prue- 
ba alternativa del teorema de Erdos-Kac (teorema 1 1 .3|) . (Lo siguiente esta muy 
cercano del camino seguido originalmente por Erdos y Kac mismos.) Sea g{x) una 
funcion tal que g{x) = O (x 1//loglog:r ) y log log x — log log g(x) = o(y / log log N); 
podemos tomar g(x) = x l ' los ^ osx , como en la primera prueba que dimos del 
teorema. 
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Procedase como en esa prueba hasta (|1.3.13p . i.e., muestre que podemos tra- 
bajar con la suma truncada 

^loglog 9 (iV) p ^ N) 

Podemos luego utilizar el lema fundamental en la misma manera que lo usamos 
en esta section, y asf mostrar que 

Prob(5 g(Ar) <t)= Prob(S; (iV) <t) + o(l) 
para todo t, donde S' g ^ es la suma de variables mutuamente independientes X' p : 

^io g io g5 (iv) p ^ N) 

En otras palabras, S^jv) tiende a la misma distribution que S' g ^ - es decir, 
tiende a la normal. 

5. Entropta relativa. Consideremos tres compartimientos separados por membranas 
porosas. Llenemoslos de gas. Seapj la probabilidad que una partfcula dada (todas 
son intercambiables) este en el compartimiento j: 




Cual es la probabilidad que haya m = r\ ■ n partfculas en el primer comparti- 
miento, ri2 = ?*2 • n en el segundo, y 713 = 7*3 ■ n en el tercero? 

La probabilidad de una configuration espetifica - es decir, la probabilidad que 
rij partfculas espetificas esten en el compartimiento j - es 



pT-pT-pT- 



El numero de configuraciones con rij partfculas en la camara j es 



n\\ ■ 712! ■ 713! 



Luego, la probabilidad que haya rij = r~ • n partfculas en el compartimiento j es 



p = pTpTpT 



hi 



m\ • 7^2! • 77,3! 
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Cuanto es esto, aproximadamente? Como en el caso que vimos al principio de 
la section, extraemos el logaritmo: 

log P = n\ log pi + ra 2 log P2 + n 3 log p 3 + n log n — n + 0(log n) 

- ((ni log ?ii - ni) + (n 2 logn 2 - n 2 ) + (ra 3 logra 3 - n 3 ) + O(logn)) 

i ni / n , i n2 / n , i n 3/ n \ , nr. s 
ni log h n 2 log h ra 3 log + GHlog n) 

Pi P2 P3 ) 

= —n ( r\ log — + r 2 log — + r 3 log — ) + 0(log n). 

V Pi P2 P3j 

Por lo tanto, 

P = e -n{H+o{\)) 

donde H = n log ^ + r 2 log ^| + r 3 log En general, definimos 

H = r j 1°S (entropia relativa) 

Pj 

y tenemos que la probabilidad que una proportion rj de las parti'culas esten en el 
comportamiento j es 

p = e -n(H+o(l))_ 

6. La entropia relativa y los primos. Sea una partition 

{los primos} = Pi U P 2 U P 3 (Pi n P 2 = Pi n P 3 = P 2 n P 3 = 0) 
tal que, para cada j = 1, 2, 3, 

Vio g z y p A± y p y ViogV 

zo <p<zi 

Sea 

uij(n) = numero de divisores primos de n en Pj 
= \{p^Pj -P\n}\ 

Queremos estimar 

Prob((a,- - e) log log N < ujj (n) < (aj + e) log log N Vj) 
Por ejemplo: si pi = \, P2 = §, £>3 = | ; cual es la probabilidad que TV tenga 

aj Como en §1.41 problemaCQ pruebe que 



| log log iV, ~ 5 log log iV y ~ log log iV divisores de cada tipo, respectivamente? 



n<N 

para «i, a 2 , a 3 cualesquiera, y, prosiguiendo como en el mismo problema, 
28) E ( e ^ a ^ n A < (log iV)^^" 1 . 
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b) Por Markov, 

Prob((aj - e) log log N < ujj (n) < (aj + e) log log N Vj) 
es a lo mas 

(1.5.29) 



g E "jO? log log N+Oj^j a } (e) 



para ay arbitrarios. Utilice (jl.5.28p y encuentre los para los cuales (|1.5.29p 
es mmimo. Muestre, en conclusion, que 

Prob((a j - e) log log N < Uj(n) < ( aj + e) log log N Vj) < (log AT)-W+°( e ) 5 

donde 

W = ( Yl a i log ^ ) + 1 ~ £ 

V Pi/ 

c) Proceda como en la seccion presente para mostrar que 
Probacy - e) log log N < u^n) < {a, + e) log log N Vj) > (log iV) -/ ^ 3)+ ° (e)+o(1) . 

La cantidad 1^(3) es llamada la entropia relativa de a con respecto a p. 



APENDICE A 



Rudimentos de probabilidades 



Un evento aleatorio E es algo que puede ya sea ocurrir o no: digamos, la lluvia de 
manana. Los ejemplos extremos son los eventos con probabilidad - es decir, los que 
se sabe con certeza que no ocurriran - y los eventos con probabilidad 1 - es decir, los 
que se sabe con certeza que ocurriran. Todo otro evento tiene probabilidad entre y 1. 
Denotamos la probabilidad del evento E mediante Prob(2£). 

Una variable aleatoria X puede tomar cualquier valor dentro de un conjunto. Los casos 
mas comunes son las variables que toman valores dentro de un conjunto nnito o infinito 
de enteros ("variables discretas") y las variables que toman valores dentro de los reales 
o algun otro espacio vectorial dado ("variables continuas"). La cantidad de lluvia que 
caera manana es un ejemplo del segundo tipo de variable; el mimero de dfas de lluvia del 
ano proximo es un ejemplo del primero. Los eventos aleatorios son, claro esta, un caso 
particular del primer tipo: pueden verse como las variables que toman los valores y 1, o 
"no" y "si" . Tales variables son llamadas variables de Bernoulli: 



X 



1 con probabilidad p 

con probabilidad 1 — p. 



La funcion de cuantia o funcion de probabilidad de una variable discreta X es la funcion 
/ que asigna a cada valor posible x su probabilidad f(x) = Prob(A = x). La suma f{x) 
siempre es 1, ya que la probabilidad que la variable tome alguno de los posibles valores es 
1. La funcion de cuantia de una variable de Bernoulli es 

p para x = 1 
f(x) = < 1 — p para x = 

para todo otro x. 

La funcion de cuantia de la variable "cara de un dado" seria 



/(*) = 



1/6 si x G {1,2,3,4,5,6} 
de otra manera, 



a menos, por supuesto, que el dado este trucado. 

Una variable continua generalmente toma cada uno de sus valores posibles con pro- 
babilidad 0: la probabilidad que caigan exactamente ir centimetres de lluvia manana es 
cero, o infinitesimal. Sin embargo, una tal variable aun puede ser descrita por una funcion 
de probabilidad, llamada, en este caso, funcion de densidad. Digamos que la variable en 
cuestion toma valores en K. La funcion de densidad de una tal variable es una funcion 
/ : R — > M.t cuya integral es 1. La probabilidad que la variable tome su valor entre a y b 
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FlGURA 1. Distribucion de una variable continua. La probabilidad que la 
variable tome un valor entre 1 y 3 es igual al area marcada. 



1 



3 



FlGURA 2. Distribucion de una variable discreta. La probabilidad que la 
variable tome un valor entre 1 y 3 es igual a la suma de los valores f(x) de 
la funcion de distribucion para x entre 1 y 3, o, lo que es lo mismo, a la 
suma de las alturas de las barras entre 1 y 3. 

esta dada por la integral 



Decimos que una variable X tiene la distribucion uniforme si todos sus valores son 
igualmente probables. Tanto en el caso continuo como en el caso discreto, X tiene la 
distribucion uniforme si y solo si su funcion / es una funcion constante. Tanto un dado 
justo como una moneda justa tienen la distribucion uniforme - si se define el dominio 
como {1, 2, . . . , 6} y {cara, sello} en el otro, claro esta. 

Muy a mcnudo, los mismos enunciados y las mismas pruebas valen para las variables discretas 
y continuas si se utilizan sumas en un caso e integrates en el otro. Tambien puede haber variables 
con un rango en parte continuo y en parte discreto. Por ello, lo correcto es tencr un solo marco 
para todas las distribuciones, de tal manera que la distincion entre las variables discretas y las 
variables continuas desaparezca en el piano formal. El lector puede adivinar que tal marco nos es 
dado por la integration dc Lebesgue; en dicha perspectiva, las sumas son un caso particular de las 
integrales. 

Tal es el formalismo aceptado en estos dfas, por excelentes razones. Empero, no nos preocu- 
paremos, y hablaremos como si nuestras variables fueran discretas o continuas dependiendo de lo 
que haga que nuestra notation sea mas conveniente. 

Una alternativa elemental consiste en dcfmir la funcion de distribucion acumulada Px{x) dc 
la siguiente manera: 




(A.0.1) 



P x {x) =Prob(X <x). 
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En el caso continuo, P(x) = J_ f(t)dt; en el caso discreto, P(x) — Ylt<x /(*)• Como la definition 
(|A.0.1[) es valida en ambos casos, uno puede utilizar Px{x) en vez de /(£) y de esta manera hablar 
de ambos tipos de distribution a la vez. 

No utilizaremos la funcion de distribucion acumulada. Cuando decimos "la distribution f(x) = 
e~ x " o "la distribucion f(n) = -^r", queremos decir "la distribution continua con funcion de 
densidad f(x) = e~ x " o "la distribucion discreta dada por la funcion de cuanti'a f(n) = -7-7", 
respectivamente; el caso que se tiene en mente estara claro en el contexto. 

* * * 

La probabilidad conditional Prob(-Ei|-E/2) es la probabilidad de un evento E\ dado que 
el evento E2 ocurre. Tenemos 

donde E\ A E% se define como el evento que tanto E% como E% ocurran. (Si la probabilidad 
que llueva mafiana es 0,1, y la probabilidad que llueva y enfrie es 0,07, la probabilidad que 
enfrie, dado que llovera, es 0,7.) 

Decimos que dos eventos E\, E2 son independientes si 

Prob(£i|£ 2 ) = Prob(^i) y Prob(E 2 \E 1 ) = Prob(£ 2 )- 

Decimos que dos variables X, Y son independientes si 

Probpf = x\Y = y)= Prob(X = x) y Prob(y = y\X = x) = Prob(y = y). 

para x, y cualesquiera. En otras palabras, X y Y son independientes si el valor tornado por 
una no nos dice nada acerca del valor de la otra. (Digamos: saber que manana llovera en 
Alaska no nos ayuda a saber si es que manana llovera en Iquitos.) 

Si tenemos variables X\ , X2, ■ ■ ■ , X n , decimos que son independientes en pares si Xi y 
Xj son independientes para 1 < i,j,< n, i ^ j cualesquiera. Decimos que X\ % X2, ■ ■ ■ , X n 
son mutuamente independientes si 

Prob(Xj = Xi\X\ = xi, . . . ,Xi-i = Xi-\,X i+ i = x i+ i, ...,X n = x n ) 

para x\, X2, ■ ■ ■ , x n e i cualesquiera. 

Ejercicio A.l. Muestre que, si X\,X2, ■ ■ ■ ,X n son mutuamente independientes, en- 
tonces son independientes en pares. 

Sin embargo, si Xi, X 2 , ■ ■ ■ , X n son independientes en pares, ello no es de ninguna 
manera suficiente para que sean mutuamente independientes. 

* * * 

Sea X una variable que toma valores dentro de los reales (o los complejos). La esperanza 
E(X) de X es 

E(X) = V Prob(X = x) ■ x 



(o f(x)xdx en el caso continuo, donde / es la funcion de densidad). En otras palabras, 
se trata de una especie de promedio. 



56 



A. RUDIMENTOS DE PROBABILIDADES 



Ejercicio A. 2. Muestre que, si X e Y son independientes, entonces 

E(XY) = E(X)E(Y). 

Esta es una condition necesaria, pero no suficiente, para que X eY sean independien- 
tes. 

Sean X una variable y E un evento. Definimos la esperanza condicional E(X\E) de X 
dado E de la siguiente manera: 



E(X\E) = Prob(X = x\E) ■ x. 



Existen diversas maneras de describir una variable, mas alia de su distribucion (que 
nos da una description completa) y su esperanza. La mas comun es la varianza: 

Var(X) =E((X -E(X)) 2 ). 

La varianza sera grande si los valores de X tienden a alejarse mucho de la esperanza de 
X, y pequena si esto no sucede. 

La desviacion estdndar <r(X) no es sino la rafz cuadrada de la varianza: 

a{X) = VVar(X). 

La desviacion estandar nos da una buena idea de la escala de las desviaciones - esto es, 
las distancias de los valores de X de la esperanza de X. Puede suceder que X este a una o 
dos desviaciones estandar de su esperanza gran parte del tiempo, pero podra estar a mas 
de diez desviaciones estandar de distancia de su esperanza a lo mas una de cada 100 veces 
(desigualdad de Chebyshev). 

La varianza y la desviacion estandar no distinguen entre las veces en que X toma 
valores mas grandes y mas pequenos que su esperanza. Hablamos de la cola superior de la 
distribucion cuando queremos referirnos a aquellos valores posibles de X que son mucho 
mas grandes que E(X); decimos cola inferior par a referirnos a los valores que son mucho 
mas pequenos que E(X). 

* * # 

Supongamos que tenemos dos variables X eY con la misma funcion de densidad, ex- 
cepto por un argumento; digamos, por ejemplo, que la funcion de densidad de X es g(x) = 

II si _ £ _ 1 ^ ^ funcion de densidad de Y es h(x) = < ^ si0<a?_l ^ 
I de otra manera, I de otra manera 

tonces tiene sentido decir que X eY poseen la misma distribucion: la probabilidad que X 
sea exactamente 1 es infinitesimal, de todas maneras, y la probabilidad que X este entre 
a y b (para a < b cualesquiera) es igual a la probabilidad que Y este entre a y b. 

Esto sugiere la definition siguiente. Sean dadas una variable Z y una sucesion de 
variables Zi, Z%, Z$, . . . . Decimos que las variables Zi, Z2, Z3, . . . convergen en distribucion 
a Z si, para a < b cualesquiera, 

(A.0.2) Km Prob(a < Z n < b) = Prob(a < Z < b). 
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Desde el punto de vista de la integration de Lebesgue, esta no es sino la "convergencia debil" . 
Por que? Ahora bien, si una sucesion de funciones de densidad (o cuantfa) /„ converge en el 
sentido de la convergencia debil a una funcion de densidad (o cuantfa) /, la sucesion de funciones 
de distribution acumulada P n {x) = f n (t)dt converge para cada a; a la funcion de distribution 
acumulada P{x) — f n (t)dt. (Esto no es sino (|A.0.2j) .) No es diffcil probar que la convergencia de 
P n {x) a P(x) es, incluso, uniforme en x. (Utilize f n {t) 7 f(t) > y f n (i)dt = f(t)dt = 1.) 

Muy bien puede suceder que las variables Z n sean discretas, y que su h'mite Z una 
variable continua. 



APENDICE B 



Comentarios finales 

En esta introduction a la teoria probabilfstica de numeros, nos centramos en el estudio 
de los divisor es primos de un niimero aleatorio, y no en el estudio de un primo aleatorio, 
o de los primos cercanos a un entero aleatorio. La razon principal es que aun se sabe 
poco con certeza acerca de estas otras preguntas. Por ejemplo, se conjetura, pero no se 
sabe, la probabilidad que un entero aleatorio n sea primo y que n + 2 tambien sea primo 
( §1.21 nota[3|). Las mas de las veces, lo unico que se posee es cotas superiores dadas por 
la teoria de cribas. Existen modelos tanto fructfferos como imperfectos - por ejemplo, el 
modelo de Cramer (ver, por ejemplo, [7]), que dice que el evento que un numero n sea 
primo y el evento que un numero m distinto sea primo se comportan muchas veces como 
si fueran eventos independientes. Esta claro que esto no debe ser crefdo completamente: 
por ejemplo, si m = n + 1 y n > 2, los numeros n y m no pueden ser ambos primos, lo 
cual serfa una posibilidad si estuvieramos hablando de variables independientes. 

En todo el texto, obedecimos a una restriction autoimpuesta: nos abstuvimos de usar 
teoria de la medida y analisis complejo. Para proseguir en el estudio de la teoria pro- 
babilfstica de numeros, es necesario usar los dos. El analisis complejo es sumamente util 
para el estudio de los primos. Toda la teoria anah'tica de numeros depende del analisis; 
se trata de un caso clasico de como el estudio de lo continuo puede ayudar en el estudio 
de lo discrete La idea principal es que, para estudiar sumas finitas, como ^2 n<N A(n), N 
variable, debemos estudiar sumas infinitas Yl n A(n)re _s , s variable. Estas sumas infinitas 
se tratan como funciones complejas de s, generalmente analfticas o meromorficas. 

La teoria de la medida se considera hoy en dfa como necesaria para desarrollar la 
teoria de probabilidades sobre una base rigurosa. Si se profundiza en el estudio de la 
teoria probabilfstica de numeros sobre una base puramente intuitiva, se llega facilmente 
al punto donde el lenguaje mismo falta. Veamos, por ejemplo, el caso de las caminatas 
aleatorias. Tomemos un numero n al azar. Consideremos los primos p = 2, 3, 5, . . . en 
orden. En cada paso, si p divide n, damos un paso a la derecha; si p no divide n, damos 
un paso mucho mas corto a la izquierda. Billingsley pQ probo que la caminata que resulta 
tiende en distribution al mismo lfmite que una caminata aleatoria, es decir, el movimiento 
Browniano. Ahora bien, que quiere decir que una caminata "tiende" a un cierto tipo de 
crecimiento en distribution? No se trata simplemente de una sucesion de numeros que 
convergen a otro numero. Resulta diffcil formular el resultado - ni que decir de su prueba 
- sin la teoria de la medida. 

Hay dos desarrollos recientes notables. En primer lugar, la teorfa de cribas ha probado 
ser mas flexible y potente de lo que se crefa hasta ahora, si se suplementa con otros 
metodos; estan allf resultados inesperados en la teorfa anah'tica de numeros obtenidos 
por Friedlander-Iwaniec, Goldston-Pintz-Yildirim, y otros. En segundo lugar, la teorfa 
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B. COMENTARIOS FINALES 



ergodica no solo esta iluminando la teorfa de numeros - inclufdo el estudio de los primos 
- sino que esta haciendo posibles pruebas de resultados que no se crefan anteriormente 
accesibles. Un ejemplo muy reciente e impresionante es el teorema de Green y Tao sobre los 
numeros primos en progresiones aritmeticas; no es que su prueba establezca propiedades 
sumamente delicadas de los numeros primos, sino mas bien que muestra que algunas leyes 
muy precisas no son delicadas, al punto que deben regir para todo subconjunto de los 
enteros con ciertas propiedades generales - propiedades que los primos satisfacen. Toda 
la teorfa ergodica esta basada sobre la teorfa de la medida, y serfa imposible comenzar el 
estudio de la primera sin utilizar la segunda. 

La bibliograffa tiene como fin ser util antes que completa. El libro de Tenenbaum 
[9] es una introduction estandar y detallada al tema, con mucho mas analisis que la 
presente monograffa. El libro de Iwaniec y Kowalski [8] se ha vuelto la obra canonica 
de la teorfa analftica de numeros para la epoca actual. Feller [6] es un texto clasico de 
probabilidades del cual generaciones se han beneficiado. Todos los artfculos citados estan 
entre los esenciales sobre el tema; la mayor parte de ellos son de lectura razonablemente 
accesible. 
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